TrendKia
सभीलाइवदेश
दुनिया
सभी दुनिया
पाकिस्तानचीनअमेरिकायूरोपएशिया
राजनीति
व्यापार
सभी व्यापार
बाज़ारमनीऑटोबेनिफिट्ससक्सेस स्टोरीक्रिप्टोएआई
उत्तर प्रदेश
उत्तर प्रदेश
उत्तर प्रदेशबिहारमध्य प्रदेशराजस्थानदिल्लीमहाराष्ट्रगुजरातपंजाबहरियाणापश्चिम बंगालतमिलनाडुकेरलकर्नाटकतेलंगानाआंध्र प्रदेशझारखंडछत्तीसगढ़ओडिशाअसमउत्तराखंडहिमाचल प्रदेशजम्मू-कश्मीरगोवाचंडीगढ़पुडुचेरी
यात्रा
यात्रा
खेल
क्रिकेटटेनिसफुटबॉल
मनोरंजनफ़िल्में, टीवी और सेलेब्स
बॉलीवुडOTTभोजपुरीमूवी रिव्यूटीवीहॉलीवुड
टेकगैजेट्स, ऐप्स और इनोवेशन
एक्सेसरीज़लॉन्च रिव्यूDIY
सेहतसेहत, फ़िटनेस और वेलनेस
जीवनफैशन, रिश्ते और जीवनशैली
फैशनकल्चररिश्तेट्रेंड्सपेरेंटिंग
खानपानरेसिपी, फूड और रेस्तरां
धर्मधर्म, आस्था और आध्यात्म
त्योहारवास्तुअध्यात्म
राशिफल
मेषवृषभमिथुनकर्कसिंहकन्यातुलावृश्चिकधनुमकरकुंभमीन
यात्राघूमने की जगहें और गाइड
ट्रैवल टिप्स
शिक्षानौकरी, परीक्षा और रिजल्ट
वैकेंसीएडमिशनपरीक्षारिजल्टकरियर
लाइव
देश
दुनिया
पाकिस्तान चीन अमेरिका यूरोप एशिया
राजनीति
व्यापार
बाज़ार मनी ऑटो बेनिफिट्स सक्सेस स्टोरी क्रिप्टो एआई
खेल
क्रिकेट टेनिस फुटबॉल
मनोरंजन
बॉलीवुड OTT भोजपुरी मूवी रिव्यू टीवी हॉलीवुड
टेक
एक्सेसरीज़ लॉन्च रिव्यू DIY
सेहत
जीवन
फैशन कल्चर रिश्ते ट्रेंड्स पेरेंटिंग
खानपान
धर्म
त्योहार वास्तु अध्यात्म
राशिफल
मेष वृषभ मिथुन कर्क सिंह कन्या तुला वृश्चिक धनु मकर कुंभ मीन
यात्रा
ट्रैवल टिप्स
शिक्षा
वैकेंसी एडमिशन परीक्षा रिजल्ट करियर
उत्तर प्रदेश बिहार मध्य प्रदेश राजस्थान दिल्ली महाराष्ट्र गुजरात पंजाब हरियाणा पश्चिम बंगाल तमिलनाडु केरल कर्नाटक तेलंगाना आंध्र प्रदेश झारखंड छत्तीसगढ़ ओडिशा असम उत्तराखंड हिमाचल प्रदेश जम्मू-कश्मीर गोवा चंडीगढ़ पुडुचेरी
हमारे बारे में संपर्क गोपनीयता कुकी नीति शर्तें विज्ञापन दें
TrendKia logo हिंदी • English न्यूज़ प्लेटफ़ॉर्म

TrendKia

तेज़ • ताज़ा • हमेशा ट्रेंड पर

भारत और दुनिया की ताज़ा ट्रेंडिंग ख़बरें, हिंदी और अंग्रेज़ी में। कमेंट करने, टॉपिक फ़ॉलो करने और रिवॉर्ड पॉइंट कमाने के लिए Google से साइन इन करें।

हमारे बारे में
TrendKia news app preview
TrendKia
हमारे बारे मेंसंपर्कगोपनीयताकुकी नीतिशर्तेंविज्ञापन दें
यूजर्स को लगा फेबल 5 कमजोर पड़ गया, पर दो बेंचमार्क ने खोली असली कहानीएआई
2 घंटे पहले· 3

यूजर्स को लगा फेबल 5 कमजोर पड़ गया, पर दो बेंचमार्क ने खोली असली कहानी

क्लॉड फेबल 5 वापस लौटा तो सोशल मीडिया पर इसे कमजोर बताया जाने लगा, लेकिन असली दिक्कत मॉडल में नहीं, उसके आगे बैठे सुरक्षा फिल्टर में है जो जरूरत से ज्यादा सख्त हो गया है।

माइकल एंडरसनमाइकल एंडरसनअमेरिका संवाददाता 5 मिनट पढ़ें AI के लिए
शेयर

1 जुलाई को जैसे ही क्लॉड फेबल 5 दोबारा ऑनलाइन हुआ, सोशल मीडिया पर इसके खिलाफ शिकायतों की झड़ी लग गई। यूजर्स इसे टूटा हुआ, कमजोर, नाकाम और पहले जैसा न रहने वाला मॉडल बता रहे थे। किसी ने लिखा कि वह पूरा दिन ओपस पर जो काम कर रहा था, वही अब फेबल 5 पर आगे बढ़ा रहा है, और शिकायत की कि राजनीति ने एक बार फिर आम तकनीकी तरक्की को कुचल दिया।

लेकिन कहानी इतनी सीधी नहीं है। उसी दिन दो अलग-अलग बेंचमार्क, ब्रिजबेंच AI और एरिना AI, ने अपने आंकड़े जारी किए और दोनों बिल्कुल उलटे नतीजे पर पहुंचे। एक ने आउटपुट की क्वालिटी में भारी गिरावट पकड़ी, जबकि दूसरे को फर्क इतना मामूली मिला कि शायद उस पर किसी का ध्यान भी न जाए। दिलचस्प बात यह है कि अपने-अपने तरीके से दोनों ही सही हैं।

छोटा सा निचोड़ यह है कि मॉडल बेवकूफ नहीं हुआ, बल्कि उसके आगे खड़ा दरबान कहीं ज्यादा सख्त हो गया है। और यही फर्क आपके लिए बहुत मायने रखता है, यह इस पर निर्भर करता है कि आप फेबल का इस्तेमाल किस काम के लिए करते हैं।

ब्रिजबेंच ने असल में क्या नापा

ब्रिजमाइंड, जो एक AI मूल्यांकन प्लेटफॉर्म है, ने वापसी वाले दिन ही 1 जुलाई वाले फेबल 5 वर्जन पर अपना पूरा कोडिंग टेस्ट सेट दोबारा चलाया। ब्रिजबेंच असली दुनिया के कोडिंग कामों की जांच करता है, जिनमें डिबगिंग, रीफैक्टरिंग और गलत जानकारी गढ़ने से बचाव जैसी श्रेणियां शामिल हैं। हर श्रेणी में मॉडल को 0 से 100 के पैमाने पर अंक मिलते हैं।

कागज पर नतीजे बेहद खराब दिखे। डिबगिंग का स्कोर 86.2 से गिरकर 25.9 पर आ गया, रीफैक्टरिंग 73.6 से लुढ़ककर 38.4 पर पहुंच गया, और गलत जानकारी से बचाव 75.9 से घटकर 61.7 रह गया।

असली पेच तरीके में छिपा है। 12 टाइपस्क्रिप्ट डिबगिंग कामों में से सिर्फ तीन ही असल में फेबल 5 तक पहुंच पाए। बाकी नौ को एंथ्रोपिक के नए सुरक्षा क्लासिफायर ने बीच में ही रोककर क्लॉड ओपस 4.8 की तरफ मोड़ दिया। और ब्रिजबेंच हर ऐसे फॉलबैक को शून्य अंक देता है, क्योंकि जवाब देने वाला मॉडल वह था ही नहीं जिसकी परीक्षा ली जा रही थी।

यह क्लासिफायर फेबल की वापसी की एक शर्त के तौर पर लगाया गया था। इसे उस जेलब्रेक तरीके को रोकने के लिए तैयार किया गया था जिसकी जानकारी अमेज़न ने दी थी, जिसके जरिए फेबल 5 से सॉफ्टवेयर की खामियां पहचानवाई और उनका प्रदर्शन करवाया जा सकता था। यह क्लासिफायर काम तो करता है, लेकिन साथ ही ऐसी बहुत सी चीजें भी पकड़ लेता है जिन्हें उसे नहीं पकड़ना चाहिए। टाइपस्क्रिप्ट की डिबगिंग इस क्लासिफायर को इतनी हद तक सुरक्षा से जुड़े काम जैसी लगती है कि फॉलबैक बार-बार चालू हो जाता है।

एरिना AI ने क्या पाया

एरिना AI, जो एक LLM बेंचमार्किंग और तुलना करने वाला प्लेटफॉर्म है, ने यही सवाल एकदम अलग नजरिए से परखा। यह प्लेटफॉर्म कई श्रेणियों, यानी टेक्स्ट, विजन, डॉक्यूमेंट, कोड और एजेंट में हजारों की तादाद में लोगों की गुमनाम पसंद के वोट जुटाता है, और मॉडलों की रैंकिंग एलो स्कोरिंग से तय करता है। एलो वही शतरंज से निकली रेटिंग प्रणाली है, जो हजारों आमने-सामने के मुकाबलों में सांख्यिकीय अनिश्चितता को ध्यान में रखकर स्कोर तय करती है। जब दो मॉडल गुमनाम तरीके से आमने-सामने आते हैं और इंसान विजेता चुनते हैं, तो स्कोर असल में महसूस की गई क्वालिटी को दिखाता है, न कि पर्दे के पीछे की रूटिंग को।

वापसी से पहले और बाद की तुलना में फेबल 5 काफी हद तक अपनी जगह टिका रहा। फ्रंटएंड कोड में स्कोर 1650 से घटकर 1623 एलो रह गया, लेकिन एरिना ने बताया कि जैसे-जैसे आंकड़े जुटते जा रहे हैं, यह फर्क कॉन्फिडेंस इंटरवल के भीतर ही है। डॉक्यूमेंट के मामले में प्रदर्शन 34 अंक बेहतर हुआ, एक्सपर्ट टेक्स्ट में 25 अंक की बढ़त रही और क्रिएटिव राइटिंग भी हल्के से 9 अंक ऊपर चढ़ी। जिन श्रेणियों में गिरावट आई, वे थीं कोडिंग में 18 अंक और कठिन प्रॉम्प्ट में 3 अंक, यानी ठीक वही जगहें जहां फेबल के जवाब देने से पहले ही क्लासिफायर प्रॉम्प्ट को बीच में रोक लेता है।

दूसरे शब्दों में, जब फेबल 5 सचमुच किसी काम को खुद संभालता है, तब वह आज भी फेबल 5 की तरह ही काम करता है। एक्स पर लोगों की नाराजगी किसी घटिया मॉडल को लेकर नहीं है, बल्कि इस बात को लेकर है कि वे एक ऐसे मॉडल का पैसा दे रहे हैं जो अक्सर जवाब दे ही नहीं रहा।

किसे फर्क पड़ेगा और किसे नहीं

क्रिएटिव राइटिंग, डॉक्यूमेंट विश्लेषण, रिसर्च और एक्सपर्ट स्तर के टेक्स्ट से जुड़े सवाल पूछने वाले आम यूजर्स को शायद बहुत कम या कोई फर्क महसूस नहीं होगा। ये वही श्रेणियां हैं जहां एरिना AI का प्रदर्शन या तो एक जैसा है या बेहतर हुआ है। अगर कोई सुधार है भी, तो वह इतना छोटा हो सकता है कि पकड़ में न आए, खासकर क्रिएटिव राइटिंग जैसे व्यक्तिपरक कामों में, जहां नतीजों को पूरी तरह नापना मुश्किल होता है।

तो कुल मिलाकर लेखकों, शोधकर्ताओं और विश्लेषकों को वही फेबल 5 मिलेगा जिसकी उन्हें उम्मीद थी। लेकिन डेवलपर्स की कहानी अलग है। जो भी कोई सुरक्षा से मिलते-जुलते इलाके में काम कर रहा है, जैसे मेमोरी मैनेजमेंट की कोडिंग, या ऐसा कुछ भी जिसमें वल्नरेबिलिटी, एक्सप्लॉइट, हुक या यहां तक कि फिक्स जैसे शब्द छू जाएं, उसे बार-बार फॉलबैक का सामना करना पड़ेगा।

ब्रिजबेंच की गिरावट और एरिना की स्थिरता के बीच का फासला दरअसल काम के प्रकार पर टिका है। ब्रिजबेंच अपने टेस्ट सेट को ठीक उसी तरह के कोड सुधार और डिबगिंग वाले प्रॉम्प्ट से भरता है जो नए क्लासिफायर को छेड़ देते हैं। वहीं एरिना के इंसानी वोटर कहीं ज्यादा तरह-तरह की चीजें पूछते हैं, और उनमें से ज्यादातर किसी सुरक्षा परत को एक्सप्लॉइट कोड जैसी नहीं लगतीं।

आगे क्या

एंथ्रोपिक ने कहा है कि समय के साथ ये क्लासिफायर बेहतर होते जाएंगे, और यह भी माना है कि फिलहाल इनका जाल जरूरत से ज्यादा फैला हुआ है। शुरुआती रोक तब लगी थी जब अमेज़न के शोधकर्ताओं ने एक ऐसा तरीका ढूंढ निकाला था जिससे फेबल से सॉफ्टवेयर की खामियां पहचानवाई और दिखवाई जा सकती थीं, और अमेरिकी सरकार ने इसे राष्ट्रीय सुरक्षा के लिए खतरा माना। इसका हल यह निकाला गया कि क्लासिफायर को इतना सतर्क बना दिया जाए कि वह उस खतरे और उसके आसपास की हर चीज को पकड़ ले, और बाद में उसकी सख्ती धीरे-धीरे कम की जाए। एंथ्रोपिक ने अब तक यह नहीं बताया कि ऐसा कब होगा।

इसका आप पर असर

  • लेखकों और रिसर्चर्स के लिए: क्रिएटिव राइटिंग, डॉक्यूमेंट विश्लेषण और रिसर्च करने वालों को फेबल 5 पहले जैसा ही मिलेगा, कोई खास फर्क महसूस नहीं होगा।
  • डेवलपर्स के लिए: डिबगिंग या सुरक्षा से जुड़ी कोडिंग करने पर आपका सवाल अक्सर फेबल 5 के बजाय ओपस 4.8 पर चला जाएगा, यानी आप जिस मॉडल का पैसा दे रहे हैं वह हमेशा जवाब नहीं दे रहा।

सवाल-जवाब

क्या क्लॉड फेबल 5 सच में कमजोर कर दिया गया है?
नहीं, मॉडल खुद कमजोर नहीं हुआ। जब वह किसी काम को खुद संभालता है तो पहले जैसा ही प्रदर्शन करता है, असली दिक्कत उसके आगे लगे सख्त सुरक्षा फिल्टर में है।
फेबल 5 कब वापस ऑनलाइन हुआ?
क्लॉड फेबल 5 एक जुलाई को दोबारा ऑनलाइन हुआ।
ब्रिजबेंच पर स्कोर इतने क्यों गिरे?
क्योंकि 12 टाइपस्क्रिप्ट डिबगिंग कामों में से सिर्फ तीन ही फेबल 5 तक पहुंचे, बाकी नौ ओपस 4.8 पर भेज दिए गए और ब्रिजबेंच हर ऐसे फॉलबैक को शून्य अंक देता है।
ब्रिजबेंच पर कितनी गिरावट दर्ज हुई?
डिबगिंग 86.2 से 25.9, रीफैक्टरिंग 73.6 से 38.4 और गलत जानकारी से बचाव 75.9 से 61.7 पर आ गया।
एरिना AI के नतीजे अलग क्यों थे?
एरिना हजारों इंसानी वोट कई श्रेणियों में जुटाता है और उनमें ज्यादातर सवाल सुरक्षा फिल्टर को नहीं छेड़ते, इसलिए वहां फेबल 5 काफी हद तक टिका रहा।
यह क्लासिफायर लगाया क्यों गया?
इसे उस जेलब्रेक तरीके को रोकने के लिए लगाया गया जिसकी जानकारी अमेज़न ने दी थी और जिससे फेबल 5 से सॉफ्टवेयर की खामियां पहचानवाई जा सकती थीं।
क्या यह दिक्कत कभी ठीक होगी?
एंथ्रोपिक ने कहा है कि समय के साथ क्लासिफायर बेहतर होंगे, लेकिन इसकी कोई तय तारीख नहीं बताई गई है।
माइकल एंडरसन
लेखक के बारे मेंमाइकल एंडरसनअमेरिका संवाददाता सैन फ्रांसिस्को
विशेषज्ञताअमेरिका समाचार, राजनीति, सरकारी नीति, चुनाव, अर्थव्यवस्था, ब्रेकिंग न्यूज़, कांग्रेस, व्हाइट हाउस, सामाजिक मुद्दे, अंतरराष्ट्रीय संबंध

माइकल एंडरसन एक अमेरिका संवाददाता हैं जो अमेरिकी राजनीति, ब्रेकिंग न्यूज़, अर्थव्यवस्था और राष्ट्रीय मामलों को कवर करते हैं। वे पूरे अमेरिका से समय पर अपडेट और स्पष्ट विश्लेषण देते हैं।

माइकल एंडरसन एक अमेरिका संवाददाता हैं जो अमेरिकी राजनीति, सरकारी नीति, अर्थव्यवस्था, सामाजिक मुद्दों और बड़ी ब्रेकिंग ख़बरों की कवरेज में विशेषज्ञता रखते हैं। वे वॉशिंगटन डी.सी. और पूरे अमेरिका के घटनाक्रमों — चुनाव, कांग्रेस की गतिविधियाँ, व्हाइट हाउस के फ़ैसले, आर्थिक रुझान और अहम राष्ट्रीय ख़बरों — पर रिपोर्ट करते हैं। सटीकता, गति और संदर्भ-सहित रिपोर्टिंग पर ज़ोर देते हुए माइकल अमेरिका और उसके वैश्विक प्रभाव को आकार देने वाले मुद्दों का गहन विश्लेषण देते हैं। उनकी पत्रकारिता पाठकों को स्पष्ट, तथ्यपरक और संतुलित रिपोर्टिंग के ज़रिए जटिल राजनीतिक व आर्थिक घटनाक्रम समझने में मदद करती है।

पूरा प्रोफ़ाइल देखें ↗
#एआई#क्लॉडफेबल5#एंथ्रोपिक#AIमॉडल#सुरक्षाक्लासिफायर#ब्रिजबेंच#एरिनाAI#ओपस4.8#कोडिंगबेंचमार्क

टिप्पणियाँ 0

टिप्पणी करने के लिए साइन इन करें।

साइन इन

अभी तक कोई टिप्पणी नहीं — पहली टिप्पणी आपकी हो!

ओमान की खाड़ी में हमले में तीन भारतीय नाविकों की मौत: अमेरिका के 'संवेदनहीन' बयान पर भड़के शशि थरूर, जयशंकर से भी पूछे सवालराजनीति1
ओमान की खाड़ी में हमले में तीन भारतीय नाविकों की मौत: अमेरिका के 'संवेदनहीन' बयान पर भड़के शशि थरूर, जयशंकर से भी पूछे सवाल
AMZN पर वॉल स्ट्रीट की बड़ी दांव: 2026 से 2028 तक Amazon के शेयर कहाँ तक पहुँच सकते हैं?बाज़ार2
AMZN पर वॉल स्ट्रीट की बड़ी दांव: 2026 से 2028 तक Amazon के शेयर कहाँ तक पहुँच सकते हैं?
अमेरिका में 'बर्नर फोन' पर संकट: FCC का नया KYC प्रस्ताव गुमनाम सिम को खत्म कर सकता है, और हफ्ते की बड़ी साइबर सुरक्षा हलचलसाइबर सुरक्षा3
अमेरिका में 'बर्नर फोन' पर संकट: FCC का नया KYC प्रस्ताव गुमनाम सिम को खत्म कर सकता है, और हफ्ते की बड़ी साइबर सुरक्षा हलचल

ताज़ा ख़बरें सीधे आपके इनबॉक्स में

रोज़ की बड़ी ख़बरें, एक ईमेल में।

TrendKia बाज़ारविज्ञापनमानसून सेल — हर चीज़ पर 50% तक छूटTrendKia बाज़ारअभी खरीदें →
नागरिक पत्रकारिता

TrendKia पत्रकार बनें

जनता की आवाज़

अपने आसपास की ख़बरें, तस्वीरें और वीडियो ट्रेंडकिआ के साथ साझा करें और अपनी आवाज़ देश तक पहुँचाएँ। हर नागरिक एक पत्रकार।

अभी जुड़ें
नागरिक पत्रकारनागरिक पत्रकार
नागरिक पत्रकार
नागरिक पत्रकार

संबंधित ख़बरें

अमेरिकी सरकार को अपनी 5% हिस्सेदारी सौंपने की तैयारी में ओपनएआई, दांव पर करीब 42 अरब डॉलरएआई
अमेरिकी सरकार को अपनी 5% हिस्सेदारी सौंपने की तैयारी में ओपनएआई, दांव पर करीब 42 अरब डॉलर
1 दिन पहले
स्पेसएक्स के हाथ में जाने के बाद क्या कर्सर पर चलते रहेंगे ओपनएआई और एंथ्रोपिक के मॉडलएआई
स्पेसएक्स के हाथ में जाने के बाद क्या कर्सर पर चलते रहेंगे ओपनएआई और एंथ्रोपिक के मॉडल
1 दिन पहले
मेटा के स्मार्ट ग्लासेज़ अब सब्सक्रिप्शन के साथ आ रहे हैं, प्रतिद्वंद्वी भी इस पर नज़र गड़ाए हैंएआई
मेटा के स्मार्ट ग्लासेज़ अब सब्सक्रिप्शन के साथ आ रहे हैं, प्रतिद्वंद्वी भी इस पर नज़र गड़ाए हैं
2 दिन पहले
प्राइवेट एआई की जंग: 1 अरब डॉलर की वैल्यूएशन के साथ वेनिस एआई ने जुटाए 6.5 करोड़ डॉलरएआई
प्राइवेट एआई की जंग: 1 अरब डॉलर की वैल्यूएशन के साथ वेनिस एआई ने जुटाए 6.5 करोड़ डॉलर
2 दिन पहले
गे डेटिंग ऐप गूज़ के प्रचार में जुटे दर्जनों फर्जी, AI-जनरेटेड इंस्टाग्राम प्रोफाइलएआई
गे डेटिंग ऐप गूज़ के प्रचार में जुटे दर्जनों फर्जी, AI-जनरेटेड इंस्टाग्राम प्रोफाइल
2 दिन पहले
दो महीने तक चुपचाप ओपनराउटर पर छाया रहा यह चीनी AI मॉडल, अब सामने आया मेइतुआन का लॉन्गकैट-2.0एआई
दो महीने तक चुपचाप ओपनराउटर पर छाया रहा यह चीनी AI मॉडल, अब सामने आया मेइतुआन का लॉन्गकैट-2.0
2 दिन पहले
एआई बिगड़ैल हो जाए तो अब शिकायत यहां दर्ज कराइए, रिसर्चर्स ने बनाई नई पब्लिक वेबसाइट FLARE-AIएआई
एआई बिगड़ैल हो जाए तो अब शिकायत यहां दर्ज कराइए, रिसर्चर्स ने बनाई नई पब्लिक वेबसाइट FLARE-AI
2 दिन पहले
एंथ्रोपिक के दो सबसे ताकतवर AI मॉडल पर से हटेंगे निर्यात प्रतिबंध, वाणिज्य विभाग से बनी सहमतिएआई
एंथ्रोपिक के दो सबसे ताकतवर AI मॉडल पर से हटेंगे निर्यात प्रतिबंध, वाणिज्य विभाग से बनी सहमति
3 दिन पहले