1 जुलाई को जैसे ही क्लॉड फेबल 5 दोबारा ऑनलाइन हुआ, सोशल मीडिया पर इसके खिलाफ शिकायतों की झड़ी लग गई। यूजर्स इसे टूटा हुआ, कमजोर, नाकाम और पहले जैसा न रहने वाला मॉडल बता रहे थे। किसी ने लिखा कि वह पूरा दिन ओपस पर जो काम कर रहा था, वही अब फेबल 5 पर आगे बढ़ा रहा है, और शिकायत की कि राजनीति ने एक बार फिर आम तकनीकी तरक्की को कुचल दिया।
लेकिन कहानी इतनी सीधी नहीं है। उसी दिन दो अलग-अलग बेंचमार्क, ब्रिजबेंच AI और एरिना AI, ने अपने आंकड़े जारी किए और दोनों बिल्कुल उलटे नतीजे पर पहुंचे। एक ने आउटपुट की क्वालिटी में भारी गिरावट पकड़ी, जबकि दूसरे को फर्क इतना मामूली मिला कि शायद उस पर किसी का ध्यान भी न जाए। दिलचस्प बात यह है कि अपने-अपने तरीके से दोनों ही सही हैं।
छोटा सा निचोड़ यह है कि मॉडल बेवकूफ नहीं हुआ, बल्कि उसके आगे खड़ा दरबान कहीं ज्यादा सख्त हो गया है। और यही फर्क आपके लिए बहुत मायने रखता है, यह इस पर निर्भर करता है कि आप फेबल का इस्तेमाल किस काम के लिए करते हैं।
ब्रिजबेंच ने असल में क्या नापा
ब्रिजमाइंड, जो एक AI मूल्यांकन प्लेटफॉर्म है, ने वापसी वाले दिन ही 1 जुलाई वाले फेबल 5 वर्जन पर अपना पूरा कोडिंग टेस्ट सेट दोबारा चलाया। ब्रिजबेंच असली दुनिया के कोडिंग कामों की जांच करता है, जिनमें डिबगिंग, रीफैक्टरिंग और गलत जानकारी गढ़ने से बचाव जैसी श्रेणियां शामिल हैं। हर श्रेणी में मॉडल को 0 से 100 के पैमाने पर अंक मिलते हैं।
कागज पर नतीजे बेहद खराब दिखे। डिबगिंग का स्कोर 86.2 से गिरकर 25.9 पर आ गया, रीफैक्टरिंग 73.6 से लुढ़ककर 38.4 पर पहुंच गया, और गलत जानकारी से बचाव 75.9 से घटकर 61.7 रह गया।
असली पेच तरीके में छिपा है। 12 टाइपस्क्रिप्ट डिबगिंग कामों में से सिर्फ तीन ही असल में फेबल 5 तक पहुंच पाए। बाकी नौ को एंथ्रोपिक के नए सुरक्षा क्लासिफायर ने बीच में ही रोककर क्लॉड ओपस 4.8 की तरफ मोड़ दिया। और ब्रिजबेंच हर ऐसे फॉलबैक को शून्य अंक देता है, क्योंकि जवाब देने वाला मॉडल वह था ही नहीं जिसकी परीक्षा ली जा रही थी।
यह क्लासिफायर फेबल की वापसी की एक शर्त के तौर पर लगाया गया था। इसे उस जेलब्रेक तरीके को रोकने के लिए तैयार किया गया था जिसकी जानकारी अमेज़न ने दी थी, जिसके जरिए फेबल 5 से सॉफ्टवेयर की खामियां पहचानवाई और उनका प्रदर्शन करवाया जा सकता था। यह क्लासिफायर काम तो करता है, लेकिन साथ ही ऐसी बहुत सी चीजें भी पकड़ लेता है जिन्हें उसे नहीं पकड़ना चाहिए। टाइपस्क्रिप्ट की डिबगिंग इस क्लासिफायर को इतनी हद तक सुरक्षा से जुड़े काम जैसी लगती है कि फॉलबैक बार-बार चालू हो जाता है।
एरिना AI ने क्या पाया
एरिना AI, जो एक LLM बेंचमार्किंग और तुलना करने वाला प्लेटफॉर्म है, ने यही सवाल एकदम अलग नजरिए से परखा। यह प्लेटफॉर्म कई श्रेणियों, यानी टेक्स्ट, विजन, डॉक्यूमेंट, कोड और एजेंट में हजारों की तादाद में लोगों की गुमनाम पसंद के वोट जुटाता है, और मॉडलों की रैंकिंग एलो स्कोरिंग से तय करता है। एलो वही शतरंज से निकली रेटिंग प्रणाली है, जो हजारों आमने-सामने के मुकाबलों में सांख्यिकीय अनिश्चितता को ध्यान में रखकर स्कोर तय करती है। जब दो मॉडल गुमनाम तरीके से आमने-सामने आते हैं और इंसान विजेता चुनते हैं, तो स्कोर असल में महसूस की गई क्वालिटी को दिखाता है, न कि पर्दे के पीछे की रूटिंग को।
वापसी से पहले और बाद की तुलना में फेबल 5 काफी हद तक अपनी जगह टिका रहा। फ्रंटएंड कोड में स्कोर 1650 से घटकर 1623 एलो रह गया, लेकिन एरिना ने बताया कि जैसे-जैसे आंकड़े जुटते जा रहे हैं, यह फर्क कॉन्फिडेंस इंटरवल के भीतर ही है। डॉक्यूमेंट के मामले में प्रदर्शन 34 अंक बेहतर हुआ, एक्सपर्ट टेक्स्ट में 25 अंक की बढ़त रही और क्रिएटिव राइटिंग भी हल्के से 9 अंक ऊपर चढ़ी। जिन श्रेणियों में गिरावट आई, वे थीं कोडिंग में 18 अंक और कठिन प्रॉम्प्ट में 3 अंक, यानी ठीक वही जगहें जहां फेबल के जवाब देने से पहले ही क्लासिफायर प्रॉम्प्ट को बीच में रोक लेता है।
दूसरे शब्दों में, जब फेबल 5 सचमुच किसी काम को खुद संभालता है, तब वह आज भी फेबल 5 की तरह ही काम करता है। एक्स पर लोगों की नाराजगी किसी घटिया मॉडल को लेकर नहीं है, बल्कि इस बात को लेकर है कि वे एक ऐसे मॉडल का पैसा दे रहे हैं जो अक्सर जवाब दे ही नहीं रहा।
किसे फर्क पड़ेगा और किसे नहीं
क्रिएटिव राइटिंग, डॉक्यूमेंट विश्लेषण, रिसर्च और एक्सपर्ट स्तर के टेक्स्ट से जुड़े सवाल पूछने वाले आम यूजर्स को शायद बहुत कम या कोई फर्क महसूस नहीं होगा। ये वही श्रेणियां हैं जहां एरिना AI का प्रदर्शन या तो एक जैसा है या बेहतर हुआ है। अगर कोई सुधार है भी, तो वह इतना छोटा हो सकता है कि पकड़ में न आए, खासकर क्रिएटिव राइटिंग जैसे व्यक्तिपरक कामों में, जहां नतीजों को पूरी तरह नापना मुश्किल होता है।
तो कुल मिलाकर लेखकों, शोधकर्ताओं और विश्लेषकों को वही फेबल 5 मिलेगा जिसकी उन्हें उम्मीद थी। लेकिन डेवलपर्स की कहानी अलग है। जो भी कोई सुरक्षा से मिलते-जुलते इलाके में काम कर रहा है, जैसे मेमोरी मैनेजमेंट की कोडिंग, या ऐसा कुछ भी जिसमें वल्नरेबिलिटी, एक्सप्लॉइट, हुक या यहां तक कि फिक्स जैसे शब्द छू जाएं, उसे बार-बार फॉलबैक का सामना करना पड़ेगा।
ब्रिजबेंच की गिरावट और एरिना की स्थिरता के बीच का फासला दरअसल काम के प्रकार पर टिका है। ब्रिजबेंच अपने टेस्ट सेट को ठीक उसी तरह के कोड सुधार और डिबगिंग वाले प्रॉम्प्ट से भरता है जो नए क्लासिफायर को छेड़ देते हैं। वहीं एरिना के इंसानी वोटर कहीं ज्यादा तरह-तरह की चीजें पूछते हैं, और उनमें से ज्यादातर किसी सुरक्षा परत को एक्सप्लॉइट कोड जैसी नहीं लगतीं।
आगे क्या
एंथ्रोपिक ने कहा है कि समय के साथ ये क्लासिफायर बेहतर होते जाएंगे, और यह भी माना है कि फिलहाल इनका जाल जरूरत से ज्यादा फैला हुआ है। शुरुआती रोक तब लगी थी जब अमेज़न के शोधकर्ताओं ने एक ऐसा तरीका ढूंढ निकाला था जिससे फेबल से सॉफ्टवेयर की खामियां पहचानवाई और दिखवाई जा सकती थीं, और अमेरिकी सरकार ने इसे राष्ट्रीय सुरक्षा के लिए खतरा माना। इसका हल यह निकाला गया कि क्लासिफायर को इतना सतर्क बना दिया जाए कि वह उस खतरे और उसके आसपास की हर चीज को पकड़ ले, और बाद में उसकी सख्ती धीरे-धीरे कम की जाए। एंथ्रोपिक ने अब तक यह नहीं बताया कि ऐसा कब होगा।













