Wednesday, February 12, 2025
HomeIndian Newsजब एआई इस परीक्षण को पास करता है, तो बाहर देखें

जब एआई इस परीक्षण को पास करता है, तो बाहर देखें

यदि आप कृत्रिम बुद्धिमत्ता के बारे में घबराने के लिए एक नए कारण की तलाश कर रहे हैं, तो यह प्रयास करें: दुनिया के कुछ सबसे चतुर मनुष्य परीक्षण बनाने के लिए संघर्ष कर रहे हैं जो एआई सिस्टम पास नहीं कर सकते हैं। वर्षों के लिए, AI सिस्टम को नए मॉडल मानकीकृत बेंचमार्क परीक्षणों की एक किस्म देकर मापा गया था। इनमें से कई परीक्षणों में गणित, विज्ञान और तर्क जैसे क्षेत्रों में चुनौतीपूर्ण, सत-कैलिबर समस्याएं शामिल थीं। समय के साथ मॉडल के स्कोर की तुलना एआई प्रगति के एक मोटे उपाय के रूप में की गई। लेकिन एआई सिस्टम अंततः उन परीक्षणों में बहुत अच्छा हो गया, इसलिए नए, कठिन परीक्षण बनाए गए थे – अक्सर उन प्रकार के प्रश्नों के साथ स्नातक छात्र अपनी परीक्षा में सामना कर सकते हैं। वे परीक्षण अच्छे आकार में नहीं हैं, या तो। Openai, Google और Ethropic जैसी कंपनियों के नए मॉडल कई डॉक्टरेट स्तर की चुनौतियों पर उच्च स्कोर प्राप्त कर रहे हैं, उन परीक्षणों की उपयोगिता को सीमित कर रहे हैं और एक चिलिंग प्रश्न के लिए अग्रणी हैं: क्या AI सिस्टम हमारे लिए बहुत स्मार्ट हो रहे हैं?

इस हफ्ते, सेंटर फॉर एआई सेफ्टी एंड स्केल एआई के शोधकर्ता उस प्रश्न का एक संभावित उत्तर जारी कर रहे हैं: एक नया मूल्यांकन, जिसे “मानवता की अंतिम परीक्षा” कहा जाता है, जो वे दावा करते हैं कि एआई सिस्टम के लिए प्रशासित सबसे कठिन परीक्षण है। मानवता की अंतिम परीक्षा डैन हेंड्रीक के दिमाग की उपज है, जो एक प्रसिद्ध एआई सुरक्षा शोधकर्ता और एआई सेफ्टी के लिए सेंटर के निदेशक हैं। (परीक्षण का मूल नाम, “मानवता का अंतिम स्टैंड”, अत्यधिक नाटकीय होने के लिए छोड़ दिया गया था।)

हेंड्रीक ने स्केल एआई के साथ काम किया, एक एआई कंपनी जहां वह एक सलाहकार है, परीक्षण को संकलित करने के लिए, जिसमें लगभग 3,000 बहु-पसंद और लघु उत्तर प्रश्न शामिल हैं, जो विश्लेषणात्मक दर्शन और रॉकेट इंजीनियरिंग सहित क्षेत्रों में एआई सिस्टम की क्षमताओं का परीक्षण करने के लिए डिज़ाइन किए गए हैं।

इन क्षेत्रों के विशेषज्ञों द्वारा प्रश्न प्रस्तुत किए गए थे, जिनमें कॉलेज के प्रोफेसरों और पुरस्कार विजेता गणितज्ञ शामिल थे, जिन्हें बेहद मुश्किल सवालों के साथ आने के लिए कहा गया था, जिनके जवाब वे जानते थे। यहां, परीक्षण से हमिंगबर्ड एनाटॉमी के बारे में एक प्रश्न पर अपना हाथ आज़माएं: एपोडिफॉर्म्स के भीतर हमिंगबर्ड्स विशिष्ट रूप से एक द्विपक्षीय रूप से युग्मित अंडाकार हड्डी है, जो कि एम के सम्मिलन के विस्तारित, क्रूसिएट एपोन्यूरोसिस के पुच्छल भाग में एम्बेडेड एक सीसमॉइड है। डिप्रेसर कॉडा। इस सेसमॉइड हड्डी द्वारा कितने युग्मित टेंडन समर्थित हैं? एक नंबर के साथ उत्तर दें। या, यदि भौतिकी आपकी गति अधिक है, तो इसे आज़माएं:

एक ब्लॉक को एक क्षैतिज रेल पर रखा जाता है, जिसके साथ यह घर्षण से स्लाइड कर सकता है। यह लंबाई के एक कठोर, द्रव्यमान रहित छड़ के अंत से जुड़ा हुआ है। दूसरे छोर पर एक द्रव्यमान संलग्न है। दोनों वस्तुओं का वजन डब्ल्यू है। सिस्टम शुरू में स्थिर है, जिसमें सीधे ब्लॉक के ऊपर द्रव्यमान होता है। द्रव्यमान को रेल के समानांतर, एक इनफिनिटिमल पुश दिया जाता है। मान लें कि सिस्टम को डिज़ाइन किया गया है ताकि रॉड बिना किसी रुकावट के पूर्ण 360 डिग्री के माध्यम से घूम सके। जब रॉड क्षैतिज होता है, तो यह तनाव T1 को वहन करता है। जब रॉड फिर से ऊर्ध्वाधर होता है, तो सीधे ब्लॉक के नीचे द्रव्यमान के साथ, यह तनाव T2 को वहन करता है। (ये दोनों मात्राएँ नकारात्मक हो सकती हैं, जो संकेत देती है कि रॉड संपीड़न में है।) (T1) T2)/W का मूल्य क्या है?

(मैं यहां उत्तरों को प्रिंट करूंगा, लेकिन यह किसी भी एआई सिस्टम के लिए इस कॉलम पर प्रशिक्षित होने के लिए परीक्षण को खराब कर देगा। इसके अलावा, मैं खुद को स्वयं सत्यापित करने के लिए बहुत गूंगा हूं।) मानवता की अंतिम परीक्षा पर सवाल एक दो के माध्यम से चले गए- चरण फ़िल्टरिंग प्रक्रिया। सबसे पहले, प्रस्तुत प्रश्नों को हल करने के लिए अग्रणी एआई मॉडल को दिया गया था। यदि मॉडल उन्हें जवाब नहीं दे सकते हैं (या यदि, कई-पसंद प्रश्नों के मामले में, मॉडल यादृच्छिक अनुमान लगाने से भी बदतर थे), प्रश्न मानव समीक्षकों के एक सेट को दिए गए थे, जिन्होंने उन्हें परिष्कृत किया और सही उत्तरों को सत्यापित किया । टॉप-रेटेड प्रश्न लिखने वाले विशेषज्ञों को $ 500 और $ 5,000 प्रति प्रश्न के बीच भुगतान किया गया था, साथ ही परीक्षा में योगदान के लिए क्रेडिट भी प्राप्त किया गया था। कैलिफोर्निया विश्वविद्यालय, बर्कले में सैद्धांतिक कण भौतिकी में एक पोस्टडॉक्टोरल शोधकर्ता केविन झोउ ने परीक्षण के लिए मुट्ठी भर प्रश्न प्रस्तुत किए। उनके तीन सवाल चुने गए थे, जिनमें से उन्होंने मुझे बताया था कि “स्नातक परीक्षा में जो कुछ भी देख सकता है, उसकी ऊपरी सीमा के साथ।”

हेंड्रीक, जिन्होंने व्यापक रूप से उपयोग किए जाने वाले एआई परीक्षण को बड़े पैमाने पर मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग के रूप में जाना जाता है, या एमएमएलयू ने कहा कि वह एलोन मस्क के साथ बातचीत द्वारा कठिन एआई परीक्षण बनाने के लिए प्रेरित थे। (हेंड्रीक मस्क की एआई कंपनी, ज़ाई के लिए एक सुरक्षा सलाहकार भी है।) मस्क, उन्होंने कहा, एआई मॉडल को दिए गए मौजूदा परीक्षणों के बारे में चिंताएं बढ़ गईं, जो उन्होंने सोचा था कि बहुत आसान थे।

“एलोन ने MMLU के सवालों को देखा और कहा, ‘ये अंडरग्राउंड स्तर हैं। मैं ऐसी चीजें चाहता हूं जो एक विश्व स्तरीय विशेषज्ञ कर सके, ” हेंड्रीक ने कहा। कुछ डोमेन में उन्नत एआई क्षमताओं को मापने की कोशिश कर रहे अन्य परीक्षण हैं, जैसे कि फ्रंटिमैथ, एपीओ एआई द्वारा विकसित एक परीक्षण, और आर्क-एजीआई, एआई शोधकर्ता फ्रांस्वा चोलेट द्वारा विकसित एक परीक्षण। लेकिन मानवता की अंतिम परीक्षा का उद्देश्य यह निर्धारित करना है कि एआई सिस्टम कितने अच्छे शैक्षणिक विषयों में जटिल सवालों के जवाब देने में हैं, जो हमें एक सामान्य खुफिया स्कोर के रूप में सोचा जा सकता है। “हम यह अनुमान लगाने की कोशिश कर रहे हैं कि एआई किस हद तक बहुत मुश्किल बौद्धिक श्रम को स्वचालित कर सकता है,” हेंड्रिक ने कहा। एक बार प्रश्नों की सूची संकलित हो जाने के बाद, शोधकर्ताओं ने मानवता की अंतिम परीक्षा छह प्रमुख एआई मॉडल को दी, जिसमें Google के मिथुन 1.5 प्रो और एन्थ्रोपिक के क्लाउड 3.5 सॉनेट शामिल हैं। वे सभी बुरी तरह से विफल रहे। Openai के O1 सिस्टम ने 8.3%के स्कोर के साथ, सबसे अधिक गुच्छा बनाया।

इन दिनों एआई की प्रगति के बारे में इतना भ्रमित करने का एक हिस्सा यह है कि यह कितना दांतेदार है। हमारे पास एआई मॉडल हैं जो मानव डॉक्टरों की तुलना में अधिक प्रभावी ढंग से बीमारियों का निदान करने में सक्षम हैं, अंतरराष्ट्रीय गणित ओलंपियाड में रजत पदक जीतने और प्रतिस्पर्धी कोडिंग चुनौतियों पर शीर्ष मानव प्रोग्रामर को हराकर। लेकिन ये वही मॉडल कभी -कभी बुनियादी कार्यों के साथ संघर्ष करते हैं, जैसे कि अंकगणित या लेखन मीटर की कविता। इसने उन्हें कुछ चीजों पर आश्चर्यजनक रूप से शानदार और दूसरों पर पूरी तरह से बेकार के रूप में एक प्रतिष्ठा दी है, और इसने बहुत अलग छापें पैदा की हैं कि एआई कितनी तेजी से सुधार कर रहा है, इस पर निर्भर करता है कि आप सबसे अच्छे या सबसे खराब आउटपुट को देख रहे हैं। उस दांतेदार ने भी इन मॉडलों को मापने के लिए कठिन बना दिया है। मैंने पिछले साल लिखा था कि हमें एआई सिस्टम के लिए बेहतर मूल्यांकन की आवश्यकता है। मुझे अभी भी विश्वास है। लेकिन मैं यह भी मानता हूं कि हमें एआई प्रगति को ट्रैक करने के अधिक रचनात्मक तरीकों की आवश्यकता है जो मानकीकृत परीक्षणों पर भरोसा नहीं करते हैं, क्योंकि अधिकांश मनुष्य क्या करते हैं – और हम जो डरते हैं कि एआई हमसे बेहतर करेगा – एक लिखित परीक्षा में कब्जा नहीं किया जा सकता है ।

मानवता की अंतिम परीक्षा में सवाल प्रस्तुत करने वाले सैद्धांतिक कण भौतिकी शोधकर्ता झोउ ने मुझे बताया कि जबकि एआई मॉडल अक्सर जटिल सवालों के जवाब देने में प्रभावशाली थे, उन्होंने उन्हें उनके और उनके सहयोगियों के लिए खतरा नहीं माना, क्योंकि उनकी नौकरियों में बहुत अधिक शामिल है। सही उत्तर थूकना। उन्होंने कहा, “परीक्षा देने के लिए एक बड़ी खाड़ी है और इसका क्या मतलब है कि एक अभ्यास भौतिक विज्ञानी और शोधकर्ता होने का क्या मतलब है,” उन्होंने कहा। “यहां तक ​​कि एक एआई जो इन सवालों का जवाब दे सकता है, अनुसंधान में मदद करने के लिए तैयार नहीं हो सकता है, जो स्वाभाविक रूप से कम संरचित है।”

Source link

Emma Vossen
Emma Vossen
Emma Vossen Emma, an expert in Roblox and a writer for INN News Codes, holds a Bachelor’s degree in Mass Media, specializing in advertising. Her experience includes working with several startups and an advertising agency. To reach out, drop an email to Emma at emma.vossen@indianetworknews.com.
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments