यदि आप कृत्रिम बुद्धिमत्ता के बारे में घबराने के लिए एक नए कारण की तलाश कर रहे हैं, तो यह प्रयास करें: दुनिया के कुछ सबसे चतुर मनुष्य परीक्षण बनाने के लिए संघर्ष कर रहे हैं जो एआई सिस्टम पास नहीं कर सकते हैं। वर्षों के लिए, AI सिस्टम को नए मॉडल मानकीकृत बेंचमार्क परीक्षणों की एक किस्म देकर मापा गया था। इनमें से कई परीक्षणों में गणित, विज्ञान और तर्क जैसे क्षेत्रों में चुनौतीपूर्ण, सत-कैलिबर समस्याएं शामिल थीं। समय के साथ मॉडल के स्कोर की तुलना एआई प्रगति के एक मोटे उपाय के रूप में की गई। लेकिन एआई सिस्टम अंततः उन परीक्षणों में बहुत अच्छा हो गया, इसलिए नए, कठिन परीक्षण बनाए गए थे – अक्सर उन प्रकार के प्रश्नों के साथ स्नातक छात्र अपनी परीक्षा में सामना कर सकते हैं। वे परीक्षण अच्छे आकार में नहीं हैं, या तो। Openai, Google और Ethropic जैसी कंपनियों के नए मॉडल कई डॉक्टरेट स्तर की चुनौतियों पर उच्च स्कोर प्राप्त कर रहे हैं, उन परीक्षणों की उपयोगिता को सीमित कर रहे हैं और एक चिलिंग प्रश्न के लिए अग्रणी हैं: क्या AI सिस्टम हमारे लिए बहुत स्मार्ट हो रहे हैं?
इस हफ्ते, सेंटर फॉर एआई सेफ्टी एंड स्केल एआई के शोधकर्ता उस प्रश्न का एक संभावित उत्तर जारी कर रहे हैं: एक नया मूल्यांकन, जिसे “मानवता की अंतिम परीक्षा” कहा जाता है, जो वे दावा करते हैं कि एआई सिस्टम के लिए प्रशासित सबसे कठिन परीक्षण है। मानवता की अंतिम परीक्षा डैन हेंड्रीक के दिमाग की उपज है, जो एक प्रसिद्ध एआई सुरक्षा शोधकर्ता और एआई सेफ्टी के लिए सेंटर के निदेशक हैं। (परीक्षण का मूल नाम, “मानवता का अंतिम स्टैंड”, अत्यधिक नाटकीय होने के लिए छोड़ दिया गया था।)
हेंड्रीक ने स्केल एआई के साथ काम किया, एक एआई कंपनी जहां वह एक सलाहकार है, परीक्षण को संकलित करने के लिए, जिसमें लगभग 3,000 बहु-पसंद और लघु उत्तर प्रश्न शामिल हैं, जो विश्लेषणात्मक दर्शन और रॉकेट इंजीनियरिंग सहित क्षेत्रों में एआई सिस्टम की क्षमताओं का परीक्षण करने के लिए डिज़ाइन किए गए हैं।
इन क्षेत्रों के विशेषज्ञों द्वारा प्रश्न प्रस्तुत किए गए थे, जिनमें कॉलेज के प्रोफेसरों और पुरस्कार विजेता गणितज्ञ शामिल थे, जिन्हें बेहद मुश्किल सवालों के साथ आने के लिए कहा गया था, जिनके जवाब वे जानते थे। यहां, परीक्षण से हमिंगबर्ड एनाटॉमी के बारे में एक प्रश्न पर अपना हाथ आज़माएं: एपोडिफॉर्म्स के भीतर हमिंगबर्ड्स विशिष्ट रूप से एक द्विपक्षीय रूप से युग्मित अंडाकार हड्डी है, जो कि एम के सम्मिलन के विस्तारित, क्रूसिएट एपोन्यूरोसिस के पुच्छल भाग में एम्बेडेड एक सीसमॉइड है। डिप्रेसर कॉडा। इस सेसमॉइड हड्डी द्वारा कितने युग्मित टेंडन समर्थित हैं? एक नंबर के साथ उत्तर दें। या, यदि भौतिकी आपकी गति अधिक है, तो इसे आज़माएं:
एक ब्लॉक को एक क्षैतिज रेल पर रखा जाता है, जिसके साथ यह घर्षण से स्लाइड कर सकता है। यह लंबाई के एक कठोर, द्रव्यमान रहित छड़ के अंत से जुड़ा हुआ है। दूसरे छोर पर एक द्रव्यमान संलग्न है। दोनों वस्तुओं का वजन डब्ल्यू है। सिस्टम शुरू में स्थिर है, जिसमें सीधे ब्लॉक के ऊपर द्रव्यमान होता है। द्रव्यमान को रेल के समानांतर, एक इनफिनिटिमल पुश दिया जाता है। मान लें कि सिस्टम को डिज़ाइन किया गया है ताकि रॉड बिना किसी रुकावट के पूर्ण 360 डिग्री के माध्यम से घूम सके। जब रॉड क्षैतिज होता है, तो यह तनाव T1 को वहन करता है। जब रॉड फिर से ऊर्ध्वाधर होता है, तो सीधे ब्लॉक के नीचे द्रव्यमान के साथ, यह तनाव T2 को वहन करता है। (ये दोनों मात्राएँ नकारात्मक हो सकती हैं, जो संकेत देती है कि रॉड संपीड़न में है।) (T1) T2)/W का मूल्य क्या है?
(मैं यहां उत्तरों को प्रिंट करूंगा, लेकिन यह किसी भी एआई सिस्टम के लिए इस कॉलम पर प्रशिक्षित होने के लिए परीक्षण को खराब कर देगा। इसके अलावा, मैं खुद को स्वयं सत्यापित करने के लिए बहुत गूंगा हूं।) मानवता की अंतिम परीक्षा पर सवाल एक दो के माध्यम से चले गए- चरण फ़िल्टरिंग प्रक्रिया। सबसे पहले, प्रस्तुत प्रश्नों को हल करने के लिए अग्रणी एआई मॉडल को दिया गया था। यदि मॉडल उन्हें जवाब नहीं दे सकते हैं (या यदि, कई-पसंद प्रश्नों के मामले में, मॉडल यादृच्छिक अनुमान लगाने से भी बदतर थे), प्रश्न मानव समीक्षकों के एक सेट को दिए गए थे, जिन्होंने उन्हें परिष्कृत किया और सही उत्तरों को सत्यापित किया । टॉप-रेटेड प्रश्न लिखने वाले विशेषज्ञों को $ 500 और $ 5,000 प्रति प्रश्न के बीच भुगतान किया गया था, साथ ही परीक्षा में योगदान के लिए क्रेडिट भी प्राप्त किया गया था। कैलिफोर्निया विश्वविद्यालय, बर्कले में सैद्धांतिक कण भौतिकी में एक पोस्टडॉक्टोरल शोधकर्ता केविन झोउ ने परीक्षण के लिए मुट्ठी भर प्रश्न प्रस्तुत किए। उनके तीन सवाल चुने गए थे, जिनमें से उन्होंने मुझे बताया था कि “स्नातक परीक्षा में जो कुछ भी देख सकता है, उसकी ऊपरी सीमा के साथ।”
हेंड्रीक, जिन्होंने व्यापक रूप से उपयोग किए जाने वाले एआई परीक्षण को बड़े पैमाने पर मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग के रूप में जाना जाता है, या एमएमएलयू ने कहा कि वह एलोन मस्क के साथ बातचीत द्वारा कठिन एआई परीक्षण बनाने के लिए प्रेरित थे। (हेंड्रीक मस्क की एआई कंपनी, ज़ाई के लिए एक सुरक्षा सलाहकार भी है।) मस्क, उन्होंने कहा, एआई मॉडल को दिए गए मौजूदा परीक्षणों के बारे में चिंताएं बढ़ गईं, जो उन्होंने सोचा था कि बहुत आसान थे।
“एलोन ने MMLU के सवालों को देखा और कहा, ‘ये अंडरग्राउंड स्तर हैं। मैं ऐसी चीजें चाहता हूं जो एक विश्व स्तरीय विशेषज्ञ कर सके, ” हेंड्रीक ने कहा। कुछ डोमेन में उन्नत एआई क्षमताओं को मापने की कोशिश कर रहे अन्य परीक्षण हैं, जैसे कि फ्रंटिमैथ, एपीओ एआई द्वारा विकसित एक परीक्षण, और आर्क-एजीआई, एआई शोधकर्ता फ्रांस्वा चोलेट द्वारा विकसित एक परीक्षण। लेकिन मानवता की अंतिम परीक्षा का उद्देश्य यह निर्धारित करना है कि एआई सिस्टम कितने अच्छे शैक्षणिक विषयों में जटिल सवालों के जवाब देने में हैं, जो हमें एक सामान्य खुफिया स्कोर के रूप में सोचा जा सकता है। “हम यह अनुमान लगाने की कोशिश कर रहे हैं कि एआई किस हद तक बहुत मुश्किल बौद्धिक श्रम को स्वचालित कर सकता है,” हेंड्रिक ने कहा। एक बार प्रश्नों की सूची संकलित हो जाने के बाद, शोधकर्ताओं ने मानवता की अंतिम परीक्षा छह प्रमुख एआई मॉडल को दी, जिसमें Google के मिथुन 1.5 प्रो और एन्थ्रोपिक के क्लाउड 3.5 सॉनेट शामिल हैं। वे सभी बुरी तरह से विफल रहे। Openai के O1 सिस्टम ने 8.3%के स्कोर के साथ, सबसे अधिक गुच्छा बनाया।
इन दिनों एआई की प्रगति के बारे में इतना भ्रमित करने का एक हिस्सा यह है कि यह कितना दांतेदार है। हमारे पास एआई मॉडल हैं जो मानव डॉक्टरों की तुलना में अधिक प्रभावी ढंग से बीमारियों का निदान करने में सक्षम हैं, अंतरराष्ट्रीय गणित ओलंपियाड में रजत पदक जीतने और प्रतिस्पर्धी कोडिंग चुनौतियों पर शीर्ष मानव प्रोग्रामर को हराकर। लेकिन ये वही मॉडल कभी -कभी बुनियादी कार्यों के साथ संघर्ष करते हैं, जैसे कि अंकगणित या लेखन मीटर की कविता। इसने उन्हें कुछ चीजों पर आश्चर्यजनक रूप से शानदार और दूसरों पर पूरी तरह से बेकार के रूप में एक प्रतिष्ठा दी है, और इसने बहुत अलग छापें पैदा की हैं कि एआई कितनी तेजी से सुधार कर रहा है, इस पर निर्भर करता है कि आप सबसे अच्छे या सबसे खराब आउटपुट को देख रहे हैं। उस दांतेदार ने भी इन मॉडलों को मापने के लिए कठिन बना दिया है। मैंने पिछले साल लिखा था कि हमें एआई सिस्टम के लिए बेहतर मूल्यांकन की आवश्यकता है। मुझे अभी भी विश्वास है। लेकिन मैं यह भी मानता हूं कि हमें एआई प्रगति को ट्रैक करने के अधिक रचनात्मक तरीकों की आवश्यकता है जो मानकीकृत परीक्षणों पर भरोसा नहीं करते हैं, क्योंकि अधिकांश मनुष्य क्या करते हैं – और हम जो डरते हैं कि एआई हमसे बेहतर करेगा – एक लिखित परीक्षा में कब्जा नहीं किया जा सकता है ।
मानवता की अंतिम परीक्षा में सवाल प्रस्तुत करने वाले सैद्धांतिक कण भौतिकी शोधकर्ता झोउ ने मुझे बताया कि जबकि एआई मॉडल अक्सर जटिल सवालों के जवाब देने में प्रभावशाली थे, उन्होंने उन्हें उनके और उनके सहयोगियों के लिए खतरा नहीं माना, क्योंकि उनकी नौकरियों में बहुत अधिक शामिल है। सही उत्तर थूकना। उन्होंने कहा, “परीक्षा देने के लिए एक बड़ी खाड़ी है और इसका क्या मतलब है कि एक अभ्यास भौतिक विज्ञानी और शोधकर्ता होने का क्या मतलब है,” उन्होंने कहा। “यहां तक कि एक एआई जो इन सवालों का जवाब दे सकता है, अनुसंधान में मदद करने के लिए तैयार नहीं हो सकता है, जो स्वाभाविक रूप से कम संरचित है।”