Bhagalpur Vocals

Apple शोधकर्ताओं ने बताया सबसे उन्नत AI मॉडल भी मुश्किल होने पर उलझने लगते हैं, आप भी जानें

Photo Source :

Posted On:Monday, June 9, 2025

मुंबई, 9 जून, (न्यूज़ हेल्पलाइन) वे बातें तो करते हैं, लेकिन क्या वे वास्तव में उस पर विचार कर पाते हैं? Apple शोधकर्ताओं द्वारा किए गए एक नए अध्ययन से पता चलता है कि ChatGPT o3, Claude और DeepSeek जैसे सबसे उन्नत AI मॉडल भी मुश्किल होने पर उलझने लगते हैं। ये तथाकथित "तर्क" मॉडल आत्मविश्वास से भरे उत्तरों और विस्तृत व्याख्याओं से प्रभावित कर सकते हैं, लेकिन जब वास्तव में जटिल समस्याओं का सामना करना पड़ता है, तो वे लड़खड़ा जाते हैं - और कभी-कभी असफल हो जाते हैं।

Apple शोधकर्ताओं ने पाया है कि आज के सबसे उन्नत बड़े भाषा मॉडल शायद उस तरह से तर्क न कर रहे हों, जैसा कि कई लोग मानते हैं। हाल ही में जारी किए गए पेपर द इल्यूजन ऑफ थिंकिंग में, Apple के शोधकर्ताओं ने दिखाया कि हालांकि ये मॉडल सतह पर बुद्धिमान दिखाई देते हैं, लेकिन जब वे वास्तव में जटिल समस्याओं का सामना करते हैं, तो उनका प्रदर्शन नाटकीय रूप से गिर जाता है।

अध्ययन ने मॉडलों के एक वर्ग को देखा, जिसे अब बड़े तर्क मॉडल (LRM) के रूप में संदर्भित किया जाता है, जिन्हें आंतरिक चरणों की एक श्रृंखला का उपयोग करके जटिल कार्यों के माध्यम से "सोचने" के लिए डिज़ाइन किया गया है, जिसे अक्सर "विचार की श्रृंखला" कहा जाता है। इसमें OpenAI के o3, DeepSeek-R1 और Claude 3.7 सॉनेट थिंकिंग जैसे मॉडल शामिल हैं। Apple के शोधकर्ताओं ने परीक्षण किया कि ये मॉडल बढ़ती कठिनाई की समस्याओं को कैसे संभालते हैं - न केवल यह कि वे सही उत्तर पर पहुँचते हैं या नहीं, बल्कि वे वहाँ पहुँचने के लिए किस तरह से तर्क करते हैं।

निष्कर्ष चौंकाने वाले थे। जैसे-जैसे समस्या की जटिलता बढ़ती गई, मॉडल का प्रदर्शन स्पष्ट रूप से कम नहीं हुआ - यह पूरी तरह से ढह गया। निष्कर्षों का हवाला देते हुए टेक आलोचक जोश वोल्फ ने ट्वीट किया, "वे एक बिंदु तक अधिक सोचते हैं।" "फिर वे जल्दी ही हार मान लेते हैं, तब भी जब उनके पास बहुत अधिक गणना शेष होती है।"

Apple की टीम ने जटिलता स्तरों को सावधानीपूर्वक नियंत्रित करने के लिए टॉवर ऑफ़ हनोई, रिवर क्रॉसिंग और ब्लॉक्स वर्ल्ड जैसे कस्टम पहेली वातावरण बनाए। इन सेटअपों ने उन्हें न केवल यह देखने की अनुमति दी कि मॉडल ने सही उत्तर पाया या नहीं, बल्कि उन्होंने वहाँ पहुँचने का प्रयास कैसे किया।

उन्होंने पाया कि:

- कम जटिलता पर, पारंपरिक LLM (तर्क श्रृंखलाओं के बिना) बेहतर प्रदर्शन करते थे और अधिक कुशल थे
- मध्यम जटिलता पर, तर्क मॉडल ने कुछ समय के लिए बढ़त ले ली
- उच्च जटिलता पर, दोनों प्रकार पूरी तरह से विफल हो गए

जब किसी समस्या को हल करने के लिए चरण-दर-चरण एल्गोरिदम दिया जाता था, ताकि उन्हें केवल निर्देशों का पालन करने की आवश्यकता हो, तब भी मॉडल गंभीर गलतियाँ करते थे। इससे पता चलता है कि वे न केवल रचनात्मकता या समस्या-समाधान के साथ, बल्कि बुनियादी तार्किक निष्पादन के साथ भी संघर्ष करते हैं।

मॉडल ने इस बात पर भी अजीब व्यवहार दिखाया कि उन्होंने कितना प्रयास किया। शुरू में, जैसे-जैसे समस्याएँ कठिन होती गईं, उन्होंने तर्क के चरणों के लिए अधिक टोकन का उपयोग करते हुए अधिक "सोचा"। लेकिन एक निश्चित सीमा तक पहुँचने के बाद, उन्होंने अचानक कम सोचना शुरू कर दिया। ऐसा तब भी हुआ जब वे किसी भी कम्प्यूटेशनल सीमा तक नहीं पहुँचे थे, जो कि Apple द्वारा "मौलिक अनुमान समय स्केलिंग सीमा" कहे जाने वाले को उजागर करता है।

संज्ञानात्मक वैज्ञानिक गैरी मार्कस ने कहा कि यह पेपर उस बात का समर्थन करता है जिसका वे दशकों से तर्क दे रहे हैं: ये सिस्टम अपने प्रशिक्षण डेटा से परे सामान्यीकरण नहीं करते हैं। मार्कस ने सबस्टैक पर लिखा, "न्यूरल नेटवर्क डेटा के प्रशिक्षण वितरण के भीतर सामान्यीकरण कर सकते हैं, लेकिन उनका सामान्यीकरण उस वितरण के बाहर टूट जाता है।" उन्होंने यह भी नोट किया कि मॉडल के "तर्क के निशान" - उत्तर तक पहुँचने के लिए वे जो कदम उठाते हैं - वे विश्वसनीय लग सकते हैं, लेकिन अक्सर यह नहीं दर्शाते हैं कि मॉडल ने निष्कर्ष तक पहुँचने के लिए वास्तव में क्या किया।

मार्कस बताते हैं कि एरिजोना स्टेट यूनिवर्सिटी के सुब्बाराव (राव) कंभमपति, जिनके पिछले काम ने तथाकथित तर्क मॉडल की आलोचना की है, की प्रतिक्रिया भी एप्पल के निष्कर्षों में प्रतिध्वनित हुई। राव ने दिखाया है कि मॉडल अक्सर तार्किक रूप से सोचते हुए दिखाई देते हैं, लेकिन वास्तव में ऐसे उत्तर देते हैं जो उनकी विचार प्रक्रिया से मेल नहीं खाते। एप्पल के प्रयोग इस बात का समर्थन करते हैं कि मॉडल लंबे तर्क पथ उत्पन्न करते हैं जो फिर भी गलत उत्तर की ओर ले जाते हैं, खासकर जब समस्याएँ कठिन हो जाती हैं।

शायद सबसे अधिक निंदनीय सबूत तब मिला जब एप्पल ने परीक्षण किया कि क्या मॉडल सटीक निर्देशों का पालन कर सकते हैं। एक परीक्षण में, उन्हें टॉवर ऑफ़ हनोई पहेली को हल करने के लिए एल्गोरिदम दिया गया और बस इसे निष्पादित करने के लिए कहा गया। पहेली की जटिलता एक निश्चित बिंदु से गुज़रने के बाद भी मॉडल विफल हो गए।

एप्पल का निष्कर्ष स्पष्ट है: आज के शीर्ष मॉडल "सुपर महंगे पैटर्न मिलानकर्ता" हैं जो केवल परिचित सेटिंग्स में तर्क की नकल कर सकते हैं। जिस क्षण उन्हें नई समस्याओं का सामना करना पड़ता है - जो उनके प्रशिक्षण डेटा से बाहर हैं - वे टूट जाते हैं।

इन निष्कर्षों का उन दावों पर गंभीर प्रभाव पड़ता है कि AI मानव-जैसा तर्क करने में सक्षम हो रहा है। जैसा कि पेपर में कहा गया है, वर्तमान दृष्टिकोण एक दीवार से टकरा सकता है, और इसे दूर करने के लिए हमें बुद्धिमान प्रणालियों के निर्माण के बारे में पूरी तरह से अलग तरीके से सोचने की आवश्यकता हो सकती है। संक्षेप में, हम अभी भी AGI से बहुत दूर हैं।

भागलपुर और देश, दुनियाँ की ताजा ख़बरे हमारे Facebook पर पढ़ने के लिए यहां क्लिक करें,
और Telegram चैनल पर पढ़ने के लिए यहां क्लिक करें

Apple शोधकर्ताओं ने बताया सबसे उन्नत AI मॉडल भी मुश्किल होने पर उलझने लगते हैं, आप भी जानें

You may also like !

मेरा गाँव मेरा देश

Follow us on