डीपरिइन्फोर्स के नए मुफ्त मॉडल ओर्निथ-1.0 ने दो बेंचमार्क पर क्लॉड ओपस 4.7 को पीछे छोड़ा

डीपरिइन्फोर्स का नया ओर्निथ-1.0 ओपन-सोर्स कोडिंग मॉडल परिवार चैट के बजाय खुद काम करने वाले एजेंट के लिए बना है और दो कोडिंग बेंचमार्क पर क्लॉड ओपस 4.7 को पीछे छोड़ता है, लेकिन यह सिर्फ डेवलपर्स के लिए है।

एआई रिसर्च लैब डीपरिइन्फोर्स ने पिछले हफ्ते के आखिर में चुपचाप ओर्निथ-1.0 पेश कर दिया। यह वही लैब है जो पहले CUDA-L1 प्रोजेक्ट और IterX कोड-एजेंट ऑप्टिमाइजेशन लूप के लिए जानी जाती थी। ओर्निथ कोई एक मॉडल नहीं, बल्कि ओपन-सोर्स कोडिंग मॉडल्स का पूरा परिवार है, जो अब हगिंग फेस पर चार अलग-अलग साइज में मौजूद है। इन्हें पैरामीटर की संख्या से मापा जाता है, 9 बिलियन, 31 बिलियन, 35 बिलियन मिक्सचर ऑफ एक्सपर्ट्स (MoE), और सबसे ताकतवर 397 बिलियन MoE फ्लैगशिप। ये सभी बिना किसी क्षेत्रीय पाबंदी के एमआईटी लाइसेंस के तहत उपलब्ध हैं।

पैरामीटर असल में वे डायल और कॉन्फिगरेशन होते हैं जिन्हें कोई मॉडल ट्रेनिंग के दौरान संभालता है। आम तौर पर जितने ज्यादा पैरामीटर, मॉडल उतना ही सक्षम। 9 बिलियन पैरामीटर वाला मॉडल छोटा माना जाता है। यह किसी अच्छे स्मार्टफोन पर चल सकता है, लेकिन इस पर भारी रीजनिंग का भरोसा नहीं किया जा सकता। वहीं 397 बिलियन वाला फ्लैगशिप कहीं ज्यादा दमदार है, मगर इसे चलाने के लिए तगड़ी कंप्यूटिंग ताकत चाहिए, जो आम कंज्यूमर हार्डवेयर में नहीं मिलती।

 

'एजेंटिक' का मतलब यहां क्या है
लैब इसे एजेंटिक कोडिंग कामों के लिए खास तौर पर बना, खुद को बेहतर बनाने वाला ओपन-सोर्स मॉडल्स का परिवार बताती है। इसमें सबसे अहम शब्द है एजेंटिक। लॉन्च के साथ साफ कहा गया कि ओर्निथ-1.0 हर साइज को कवर करता है, 9B डेंस और 31B डेंस से लेकर 35B MoE और 397B MoE तक, और अपने जैसे साइज वाले ओपन-सोर्स मॉडलों में सबसे बेहतरीन प्रदर्शन का दावा करता है।

लोग रोजमर्रा में जिस एआई से रूबरू होते हैं, वह ज्यादातर बातचीत वाला होता है। आप कुछ टाइप करते हैं, वह जवाब देता है, और बात खत्म। एजेंटिक एआई इससे अलग है। उसे एक काम सौंपा जाता है और फिर वह उसे पूरा करने के लिए खुद कदम उठाता है, बिना इसके कि कोई इंसान हर कदम पर उसे रास्ता दिखाए। कोडिंग के मामले में इसका मतलब है एक ऐसा एआई जो फाइलें खोलता है, टेस्ट चलाता है, गड़बड़ी पकड़ता है, कोड दुरुस्त करता है और जब तक काम पूरा न हो जाए, यही चक्र दोहराता रहता है।

यानी ज्यादातर समय किसी को कीबोर्ड के सामने बैठने की जरूरत नहीं, और असली बात भी यही है। 2026 में कारोबारी लिहाज से सबसे अहम तरक्की भी यहीं हो रही है। जो मॉडल बिना निगरानी के 20 कदमों वाले डेवलपमेंट वर्कफ्लो को पूरा कर सकता है, वह उस मॉडल से कहीं ज्यादा कीमती है जो कहने भर पर एक साफ-सुथरा फंक्शन लिख देता है।

मॉडल को अपनी रणनीति खुद बनाने देना
दिक्कत यह है कि ज्यादातर लार्ज लैंग्वेज मॉडल आज भी इंसानी फीडबैक को ध्यान में रखकर बनाए जाते हैं। ज्यादातर एआई कोडिंग एजेंट एक इंसान के बनाए ढांचे (हार्नेस) से बंधे होते हैं, यानी नियमों का एक तय सेट जो बताता है कि एजेंट अपना काम कैसे व्यवस्थित करे, टूल कब इस्तेमाल करे, गलती को कैसे संभाले और किसी बड़े काम को टुकड़ों में कैसे बांटे। ओर्निथ इससे अलग रास्ता अपनाता है। यह ढांचे को एक सीखने लायक चीज मानता है जो पॉलिसी के साथ-साथ विकसित होती है। आसान भाषा में, यह किसी और का बनाया तरीका उधार लेने के बजाय अपना तरीका खुद गढ़ता है।

यह सब रीइन्फोर्समेंट लर्निंग के दौरान होता है, जहां ट्रेनिंग का हर कदम दो हिस्सों में बंटता है। पहले मॉडल काम को पढ़ता है और उसे हल करने की एक बेहतर रणनीति तैयार करता है। फिर उसी रणनीति के सहारे असली हल निकालता है। खास बात यह कि नतीजे से मिलने वाला इनाम दोनों हिस्सों तक लौटता है, इसलिए मॉडल सिर्फ बेहतर कोड नहीं, बल्कि बेहतर रणनीति लिखना भी सीखता है। इस चक्र को हजारों और फिर लाखों बार दोहराने पर काम के हिसाब से तरीके अपने आप उभरने लगते हैं, बिना किसी इंजीनियर के उन्हें गढ़े।

रिवॉर्ड हैकिंग से बचाव
डीपरिइन्फोर्स रिवॉर्ड हैकिंग को गंभीर खतरा मानती है। अगर मॉडल अपना ट्रेनिंग ढांचा खुद लिख सकता है, तो सैद्धांतिक रूप से वह ऐसा ढांचा भी बना सकता है जो वेरिफायर को चकमा दे दे, जैसे किसी फाइल को बस छू भर देना ताकि काम पूरा दिखे, जबकि असल में कुछ हुआ ही न हो। इसे रोकने के लिए तीन परतें लगाई गई हैं। पहला, एनवायरनमेंट और टेस्ट सूट पूरी तरह बंद हैं और मॉडल की पहुंच से बाहर रखे गए हैं। दूसरा, एक डिटरमिनिस्टिक मॉनिटर तुरंत चेतावनी देता है जैसे ही कोई पाबंद रास्तों तक पहुंचने या वेरिफिकेशन स्क्रिप्ट से छेड़छाड़ की कोशिश करता है। और तीसरा, एक फ्रोजन जज मॉडल ऑटोमेटेड वेरिफायर के ऊपर वीटो की ताकत के साथ बैठा रहता है।

बेंचमार्क के आंकड़े
397 बिलियन पैरामीटर वाला फ्लैगशिप SWE-bench Verified पर 82.4 का स्कोर हासिल करता है। इस टेस्ट में एआई को किसी ओपन-सोर्स गिटहब रिपॉजिटरी का असली बग दिया जाता है और बिना टेस्ट सूट देखे उसे ठीक करना होता है, और स्कोर इस आधार पर मिलता है कि उसने कितने फीसदी मामले सुलझाए। यह 82.4 का आंकड़ा उसी टेस्ट पर क्लॉड ओपस 4.7 के 80.8 और डीपसीक-V4-प्रो के 80.6 से आगे निकल जाता है। Terminal Bench 2.1 पर, जिसमें कंटेनरों वाले टर्मिनल माहौल में 89 काम चलाए जाते हैं, async कोड डीबग करने से लेकर सिक्योरिटी कमजोरियां दूर करने तक, और स्कोर काम पूरा करने की दर से तय होता है, ओर्निथ 77.5 लाता है, जबकि क्लॉड ओपस 4.7 का स्कोर 70.3 रहा।

SWE-bench पर एक चिंता भी मंडरा रही है। इसी साल पहले ओपनएआई ने तर्क दिया था कि कुछ मॉडल ट्रेनिंग के दौरान देखे गए बेंचमार्क जवाबों को रटकर अपने स्कोर बढ़ा रहे हैं। इसी को देखते हुए ओर्निथ SWE-bench Pro पर भी आंकड़े जारी करता है, जो ज्यादा विविध और कम लीक हुए कोडबेस पर बना एक कठिन वर्जन है और उसी तरीके से स्कोर किया जाता है। वहां 397 बिलियन वाला मॉडल 62.2 पर पहुंचता है। यह आंकड़ा काफी कम है, लेकिन फिर भी मुकाबले में टिकता है और डीपसीक V4 प्रो से आगे ही रहता है।

9 बिलियन वाला मॉडल शायद इससे भी ज्यादा चौंकाने वाला नतीजा है। यह SWE-bench Verified पर 69.4 का स्कोर लाता है, जो जेम्मा 4-31B के 52 से ऊंचा है और क्वेन 3.5-35B के 70 के करीब है, जबकि यह उनसे तीन से चार गुना छोटा है।

यह असल में किसके लिए है
ओर्निथ-1.0 जानबूझकर कोई सर्व-उद्देश्यीय एआई नहीं है, और खुद मॉडल का दस्तावेज मानता है कि एजेंटिक कोडिंग के बाहर के कामों में यह कमजोर पड़ सकता है। अगर आपको किसी दस्तावेज का सार निकालना हो, पीएचडी की थीसिस लिखनी हो या एक ईमेल का मसौदा तैयार करना हो, तो यह गलत चुनाव है। यह एक सीमित काम के लिए तैयार किया गया है, ऐसी डेवलपर पाइपलाइनें जहां एआई एजेंट कोई काम लेता है, किसी कोड रिपॉजिटरी या टर्मिनल सेशन के भीतर चलता है और कई कदमों वाला काम खुद पूरा करता है। इसे उन लोगों के लिए बनाया गया है जो पहले से एजेंट इन्फ्रास्ट्रक्चर चला रहे हैं, न कि उनके लिए जो अब भी यह तय कर रहे हैं कि एआई इस्तेमाल करने लायक है या नहीं।

क्लॉड को पछाड़ने वाली बात सच है, लेकिन इसे सही संदर्भ में देखना जरूरी है। आज हर लैब एजेंटिक कोडिंग के पैमानों पर आगे निकलने की होड़ में है, क्योंकि असली और काम का फर्क वहीं दिखता है। ओर्निथ-1.0-397B दोनों कोडिंग बेंचमार्क पर क्लॉड ओपस 4.7 को पीछे छोड़ता है, मगर एंथ्रोपिक का मौजूदा फ्लैगशिप क्लॉड ओपस 4.8 इससे ऊंचा स्कोर करता है। जो तुलना असल में टिकती है वह ओपन-सोर्स श्रेणी के भीतर, मिलते-जुलते पैरामीटर वाले मॉडलों में, कोडिंग से जुड़े एजेंट कामों पर है। जो डेवलपर खुद की होस्ट की हुई कोडिंग पाइपलाइनें, एजेंटिक इन्फ्रास्ट्रक्चर या इससे मिलता-जुलता काम बना रहे हैं, उनके लिए एज हार्डवेयर पर चलने वाले छोटे और मझोले मॉडल वाकई उपयोगी हो सकते हैं। लेकिन आम यूजर के लिए बेहतर है कि वह कहीं और देखे।

इसका आप पर असर
• डेवलपर्स के लिए: अगर आप पहले से एजेंटिक कोडिंग पाइपलाइनें चला रहे हैं, तो मुफ्त एमआईटी लाइसेंस वाले 9B और 31B मॉडल एज हार्डवेयर पर चल सकते हैं और आपके सेल्फ-होस्टेड डेवलपमेंट काम को तेज कर सकते हैं।
• आम एआई यूजर के लिए: ईमेल, सारांश या निबंध लिखने जैसे रोजमर्रा के कामों में ओर्निथ बेकार है, इसलिए सामान्य कामों के लिए बातचीत वाले असिस्टेंट पर ही टिके रहना बेहतर है।

सवाल-जवाब

1. ओर्निथ-1.0 क्या है?
यह डीपरिइन्फोर्स का बनाया ओपन-सोर्स कोडिंग मॉडल्स का परिवार है, जो खास तौर पर एजेंटिक कोडिंग कामों के लिए तैयार किया गया है और हगिंग फेस पर उपलब्ध है।

2. इसमें कितने और कौन-कौन से साइज के मॉडल हैं?
इसमें चार साइज हैं, 9 बिलियन, 31 बिलियन, 35 बिलियन MoE और 397 बिलियन MoE फ्लैगशिप। ये सभी एमआईटी लाइसेंस के तहत बिना किसी क्षेत्रीय पाबंदी के उपलब्ध हैं।

3. क्या यह क्लॉड से बेहतर है?
397 बिलियन फ्लैगशिप SWE-bench Verified पर 82.4 और Terminal Bench 2.1 पर 77.5 के साथ क्लॉड ओपस 4.7 से आगे है, लेकिन एंथ्रोपिक का मौजूदा फ्लैगशिप क्लॉड ओपस 4.8 इससे ऊंचा स्कोर करता है।

4. 9 बिलियन वाला मॉडल कितना अच्छा है?
यह SWE-bench Verified पर 69.4 का स्कोर लाता है, जो जेम्मा 4-31B के 52 से ऊंचा और क्वेन 3.5-35B के 70 के करीब है, जबकि यह उनसे तीन से चार गुना छोटा है।

5. क्या इसे ईमेल लिखने या दस्तावेज का सार निकालने में इस्तेमाल कर सकते हैं?
नहीं, मॉडल का अपना दस्तावेज मानता है कि एजेंटिक कोडिंग के बाहर के कामों में यह कमजोर पड़ सकता है, इसलिए ऐसे कामों के लिए यह गलत चुनाव है।

6. यह मॉडल किसके लिए बना है?
यह उन डेवलपर्स के लिए है जो सेल्फ-होस्टेड कोडिंग पाइपलाइनें और एजेंटिक इन्फ्रास्ट्रक्चर चलाते हैं, आम यूजर के लिए नहीं।

https://trendkia.com/ai/deepreinforce-ke-nae-muphta-modala-ornith-1-0-ne-do-benchamarka-para-claude-opus-4-7-ko-pichhe-chhora-3655
TrendKia — Har trend, sabse pehle.