मुंबई, 9 जून, (न्यूज़ हेल्पलाइन) वे बातें तो करते हैं, लेकिन क्या वे वास्तव में उस पर विचार कर पाते हैं? Apple शोधकर्ताओं द्वारा किए गए एक नए अध्ययन से पता चलता है कि ChatGPT o3, Claude और DeepSeek जैसे सबसे उन्नत AI मॉडल भी मुश्किल होने पर उलझने लगते हैं। ये तथाकथित "तर्क" मॉडल आत्मविश्वास से भरे उत्तरों और विस्तृत व्याख्याओं से प्रभावित कर सकते हैं, लेकिन जब वास्तव में जटिल समस्याओं का सामना करना पड़ता है, तो वे लड़खड़ा जाते हैं - और कभी-कभी असफल हो जाते हैं।
Apple शोधकर्ताओं ने पाया है कि आज के सबसे उन्नत बड़े भाषा मॉडल शायद उस तरह से तर्क न कर रहे हों, जैसा कि कई लोग मानते हैं। हाल ही में जारी किए गए पेपर द इल्यूजन ऑफ थिंकिंग में, Apple के शोधकर्ताओं ने दिखाया कि हालांकि ये मॉडल सतह पर बुद्धिमान दिखाई देते हैं, लेकिन जब वे वास्तव में जटिल समस्याओं का सामना करते हैं, तो उनका प्रदर्शन नाटकीय रूप से गिर जाता है।
अध्ययन ने मॉडलों के एक वर्ग को देखा, जिसे अब बड़े तर्क मॉडल (LRM) के रूप में संदर्भित किया जाता है, जिन्हें आंतरिक चरणों की एक श्रृंखला का उपयोग करके जटिल कार्यों के माध्यम से "सोचने" के लिए डिज़ाइन किया गया है, जिसे अक्सर "विचार की श्रृंखला" कहा जाता है। इसमें OpenAI के o3, DeepSeek-R1 और Claude 3.7 सॉनेट थिंकिंग जैसे मॉडल शामिल हैं। Apple के शोधकर्ताओं ने परीक्षण किया कि ये मॉडल बढ़ती कठिनाई की समस्याओं को कैसे संभालते हैं - न केवल यह कि वे सही उत्तर पर पहुँचते हैं या नहीं, बल्कि वे वहाँ पहुँचने के लिए किस तरह से तर्क करते हैं।
निष्कर्ष चौंकाने वाले थे। जैसे-जैसे समस्या की जटिलता बढ़ती गई, मॉडल का प्रदर्शन स्पष्ट रूप से कम नहीं हुआ - यह पूरी तरह से ढह गया। निष्कर्षों का हवाला देते हुए टेक आलोचक जोश वोल्फ ने ट्वीट किया, "वे एक बिंदु तक अधिक सोचते हैं।" "फिर वे जल्दी ही हार मान लेते हैं, तब भी जब उनके पास बहुत अधिक गणना शेष होती है।"
Apple की टीम ने जटिलता स्तरों को सावधानीपूर्वक नियंत्रित करने के लिए टॉवर ऑफ़ हनोई, रिवर क्रॉसिंग और ब्लॉक्स वर्ल्ड जैसे कस्टम पहेली वातावरण बनाए। इन सेटअपों ने उन्हें न केवल यह देखने की अनुमति दी कि मॉडल ने सही उत्तर पाया या नहीं, बल्कि उन्होंने वहाँ पहुँचने का प्रयास कैसे किया।
उन्होंने पाया कि:
- कम जटिलता पर, पारंपरिक LLM (तर्क श्रृंखलाओं के बिना) बेहतर प्रदर्शन करते थे और अधिक कुशल थे
- मध्यम जटिलता पर, तर्क मॉडल ने कुछ समय के लिए बढ़त ले ली
- उच्च जटिलता पर, दोनों प्रकार पूरी तरह से विफल हो गए
जब किसी समस्या को हल करने के लिए चरण-दर-चरण एल्गोरिदम दिया जाता था, ताकि उन्हें केवल निर्देशों का पालन करने की आवश्यकता हो, तब भी मॉडल गंभीर गलतियाँ करते थे। इससे पता चलता है कि वे न केवल रचनात्मकता या समस्या-समाधान के साथ, बल्कि बुनियादी तार्किक निष्पादन के साथ भी संघर्ष करते हैं।
मॉडल ने इस बात पर भी अजीब व्यवहार दिखाया कि उन्होंने कितना प्रयास किया। शुरू में, जैसे-जैसे समस्याएँ कठिन होती गईं, उन्होंने तर्क के चरणों के लिए अधिक टोकन का उपयोग करते हुए अधिक "सोचा"। लेकिन एक निश्चित सीमा तक पहुँचने के बाद, उन्होंने अचानक कम सोचना शुरू कर दिया। ऐसा तब भी हुआ जब वे किसी भी कम्प्यूटेशनल सीमा तक नहीं पहुँचे थे, जो कि Apple द्वारा "मौलिक अनुमान समय स्केलिंग सीमा" कहे जाने वाले को उजागर करता है।
संज्ञानात्मक वैज्ञानिक गैरी मार्कस ने कहा कि यह पेपर उस बात का समर्थन करता है जिसका वे दशकों से तर्क दे रहे हैं: ये सिस्टम अपने प्रशिक्षण डेटा से परे सामान्यीकरण नहीं करते हैं। मार्कस ने सबस्टैक पर लिखा, "न्यूरल नेटवर्क डेटा के प्रशिक्षण वितरण के भीतर सामान्यीकरण कर सकते हैं, लेकिन उनका सामान्यीकरण उस वितरण के बाहर टूट जाता है।" उन्होंने यह भी नोट किया कि मॉडल के "तर्क के निशान" - उत्तर तक पहुँचने के लिए वे जो कदम उठाते हैं - वे विश्वसनीय लग सकते हैं, लेकिन अक्सर यह नहीं दर्शाते हैं कि मॉडल ने निष्कर्ष तक पहुँचने के लिए वास्तव में क्या किया।
मार्कस बताते हैं कि एरिजोना स्टेट यूनिवर्सिटी के सुब्बाराव (राव) कंभमपति, जिनके पिछले काम ने तथाकथित तर्क मॉडल की आलोचना की है, की प्रतिक्रिया भी एप्पल के निष्कर्षों में प्रतिध्वनित हुई। राव ने दिखाया है कि मॉडल अक्सर तार्किक रूप से सोचते हुए दिखाई देते हैं, लेकिन वास्तव में ऐसे उत्तर देते हैं जो उनकी विचार प्रक्रिया से मेल नहीं खाते। एप्पल के प्रयोग इस बात का समर्थन करते हैं कि मॉडल लंबे तर्क पथ उत्पन्न करते हैं जो फिर भी गलत उत्तर की ओर ले जाते हैं, खासकर जब समस्याएँ कठिन हो जाती हैं।
शायद सबसे अधिक निंदनीय सबूत तब मिला जब एप्पल ने परीक्षण किया कि क्या मॉडल सटीक निर्देशों का पालन कर सकते हैं। एक परीक्षण में, उन्हें टॉवर ऑफ़ हनोई पहेली को हल करने के लिए एल्गोरिदम दिया गया और बस इसे निष्पादित करने के लिए कहा गया। पहेली की जटिलता एक निश्चित बिंदु से गुज़रने के बाद भी मॉडल विफल हो गए।
एप्पल का निष्कर्ष स्पष्ट है: आज के शीर्ष मॉडल "सुपर महंगे पैटर्न मिलानकर्ता" हैं जो केवल परिचित सेटिंग्स में तर्क की नकल कर सकते हैं। जिस क्षण उन्हें नई समस्याओं का सामना करना पड़ता है - जो उनके प्रशिक्षण डेटा से बाहर हैं - वे टूट जाते हैं।
इन निष्कर्षों का उन दावों पर गंभीर प्रभाव पड़ता है कि AI मानव-जैसा तर्क करने में सक्षम हो रहा है। जैसा कि पेपर में कहा गया है, वर्तमान दृष्टिकोण एक दीवार से टकरा सकता है, और इसे दूर करने के लिए हमें बुद्धिमान प्रणालियों के निर्माण के बारे में पूरी तरह से अलग तरीके से सोचने की आवश्यकता हो सकती है। संक्षेप में, हम अभी भी AGI से बहुत दूर हैं।