डीपरिइन्फोर्स के नए मुफ्त मॉडल ओर्निथ-1.0 ने दो बेंचमार्क पर क्लॉड ओपस 4.7 को पीछे छोड़ा

डीपरिइन्फोर्स का नया ओर्निथ-1.0 ओपन-सोर्स कोडिंग मॉडल परिवार चैट के बजाय खुद काम करने वाले एजेंट के लिए बना है और दो कोडिंग बेंचमार्क पर क्लॉड ओपस 4.7 को पीछे छोड़ता है, लेकिन यह सिर्फ डेवलपर्स के लिए है।

Amit PatelBusiness Correspondent 6 मिनट पढ़ें AI के लिए

एआई रिसर्च लैब डीपरिइन्फोर्स ने पिछले हफ्ते के आखिर में चुपचाप ओर्निथ-1.0 पेश कर दिया। यह वही लैब है जो पहले CUDA-L1 प्रोजेक्ट और IterX कोड-एजेंट ऑप्टिमाइजेशन लूप के लिए जानी जाती थी। ओर्निथ कोई एक मॉडल नहीं, बल्कि ओपन-सोर्स कोडिंग मॉडल्स का पूरा परिवार है, जो अब हगिंग फेस पर चार अलग-अलग साइज में मौजूद है। इन्हें पैरामीटर की संख्या से मापा जाता है, 9 बिलियन, 31 बिलियन, 35 बिलियन मिक्सचर ऑफ एक्सपर्ट्स (MoE), और सबसे ताकतवर 397 बिलियन MoE फ्लैगशिप। ये सभी बिना किसी क्षेत्रीय पाबंदी के एमआईटी लाइसेंस के तहत उपलब्ध हैं।

पैरामीटर असल में वे डायल और कॉन्फिगरेशन होते हैं जिन्हें कोई मॉडल ट्रेनिंग के दौरान संभालता है। आम तौर पर जितने ज्यादा पैरामीटर, मॉडल उतना ही सक्षम। 9 बिलियन पैरामीटर वाला मॉडल छोटा माना जाता है। यह किसी अच्छे स्मार्टफोन पर चल सकता है, लेकिन इस पर भारी रीजनिंग का भरोसा नहीं किया जा सकता। वहीं 397 बिलियन वाला फ्लैगशिप कहीं ज्यादा दमदार है, मगर इसे चलाने के लिए तगड़ी कंप्यूटिंग ताकत चाहिए, जो आम कंज्यूमर हार्डवेयर में नहीं मिलती।

'एजेंटिक' का मतलब यहां क्या है

लैब इसे एजेंटिक कोडिंग कामों के लिए खास तौर पर बना, खुद को बेहतर बनाने वाला ओपन-सोर्स मॉडल्स का परिवार बताती है। इसमें सबसे अहम शब्द है एजेंटिक। लॉन्च के साथ साफ कहा गया कि ओर्निथ-1.0 हर साइज को कवर करता है, 9B डेंस और 31B डेंस से लेकर 35B MoE और 397B MoE तक, और अपने जैसे साइज वाले ओपन-सोर्स मॉडलों में सबसे बेहतरीन प्रदर्शन का दावा करता है।

लोग रोजमर्रा में जिस एआई से रूबरू होते हैं, वह ज्यादातर बातचीत वाला होता है। आप कुछ टाइप करते हैं, वह जवाब देता है, और बात खत्म। एजेंटिक एआई इससे अलग है। उसे एक काम सौंपा जाता है और फिर वह उसे पूरा करने के लिए खुद कदम उठाता है, बिना इसके कि कोई इंसान हर कदम पर उसे रास्ता दिखाए। कोडिंग के मामले में इसका मतलब है एक ऐसा एआई जो फाइलें खोलता है, टेस्ट चलाता है, गड़बड़ी पकड़ता है, कोड दुरुस्त करता है और जब तक काम पूरा न हो जाए, यही चक्र दोहराता रहता है।

यानी ज्यादातर समय किसी को कीबोर्ड के सामने बैठने की जरूरत नहीं, और असली बात भी यही है। 2026 में कारोबारी लिहाज से सबसे अहम तरक्की भी यहीं हो रही है। जो मॉडल बिना निगरानी के 20 कदमों वाले डेवलपमेंट वर्कफ्लो को पूरा कर सकता है, वह उस मॉडल से कहीं ज्यादा कीमती है जो कहने भर पर एक साफ-सुथरा फंक्शन लिख देता है।

मॉडल को अपनी रणनीति खुद बनाने देना

दिक्कत यह है कि ज्यादातर लार्ज लैंग्वेज मॉडल आज भी इंसानी फीडबैक को ध्यान में रखकर बनाए जाते हैं। ज्यादातर एआई कोडिंग एजेंट एक इंसान के बनाए ढांचे (हार्नेस) से बंधे होते हैं, यानी नियमों का एक तय सेट जो बताता है कि एजेंट अपना काम कैसे व्यवस्थित करे, टूल कब इस्तेमाल करे, गलती को कैसे संभाले और किसी बड़े काम को टुकड़ों में कैसे बांटे। ओर्निथ इससे अलग रास्ता अपनाता है। यह ढांचे को एक सीखने लायक चीज मानता है जो पॉलिसी के साथ-साथ विकसित होती है। आसान भाषा में, यह किसी और का बनाया तरीका उधार लेने के बजाय अपना तरीका खुद गढ़ता है।

यह सब रीइन्फोर्समेंट लर्निंग के दौरान होता है, जहां ट्रेनिंग का हर कदम दो हिस्सों में बंटता है। पहले मॉडल काम को पढ़ता है और उसे हल करने की एक बेहतर रणनीति तैयार करता है। फिर उसी रणनीति के सहारे असली हल निकालता है। खास बात यह कि नतीजे से मिलने वाला इनाम दोनों हिस्सों तक लौटता है, इसलिए मॉडल सिर्फ बेहतर कोड नहीं, बल्कि बेहतर रणनीति लिखना भी सीखता है। इस चक्र को हजारों और फिर लाखों बार दोहराने पर काम के हिसाब से तरीके अपने आप उभरने लगते हैं, बिना किसी इंजीनियर के उन्हें गढ़े।

रिवॉर्ड हैकिंग से बचाव

डीपरिइन्फोर्स रिवॉर्ड हैकिंग को गंभीर खतरा मानती है। अगर मॉडल अपना ट्रेनिंग ढांचा खुद लिख सकता है, तो सैद्धांतिक रूप से वह ऐसा ढांचा भी बना सकता है जो वेरिफायर को चकमा दे दे, जैसे किसी फाइल को बस छू भर देना ताकि काम पूरा दिखे, जबकि असल में कुछ हुआ ही न हो। इसे रोकने के लिए तीन परतें लगाई गई हैं। पहला, एनवायरनमेंट और टेस्ट सूट पूरी तरह बंद हैं और मॉडल की पहुंच से बाहर रखे गए हैं। दूसरा, एक डिटरमिनिस्टिक मॉनिटर तुरंत चेतावनी देता है जैसे ही कोई पाबंद रास्तों तक पहुंचने या वेरिफिकेशन स्क्रिप्ट से छेड़छाड़ की कोशिश करता है। और तीसरा, एक फ्रोजन जज मॉडल ऑटोमेटेड वेरिफायर के ऊपर वीटो की ताकत के साथ बैठा रहता है।

बेंचमार्क के आंकड़े

397 बिलियन पैरामीटर वाला फ्लैगशिप SWE-bench Verified पर 82.4 का स्कोर हासिल करता है। इस टेस्ट में एआई को किसी ओपन-सोर्स गिटहब रिपॉजिटरी का असली बग दिया जाता है और बिना टेस्ट सूट देखे उसे ठीक करना होता है, और स्कोर इस आधार पर मिलता है कि उसने कितने फीसदी मामले सुलझाए। यह 82.4 का आंकड़ा उसी टेस्ट पर क्लॉड ओपस 4.7 के 80.8 और डीपसीक-V4-प्रो के 80.6 से आगे निकल जाता है। Terminal Bench 2.1 पर, जिसमें कंटेनरों वाले टर्मिनल माहौल में 89 काम चलाए जाते हैं, async कोड डीबग करने से लेकर सिक्योरिटी कमजोरियां दूर करने तक, और स्कोर काम पूरा करने की दर से तय होता है, ओर्निथ 77.5 लाता है, जबकि क्लॉड ओपस 4.7 का स्कोर 70.3 रहा।

SWE-bench पर एक चिंता भी मंडरा रही है। इसी साल पहले ओपनएआई ने तर्क दिया था कि कुछ मॉडल ट्रेनिंग के दौरान देखे गए बेंचमार्क जवाबों को रटकर अपने स्कोर बढ़ा रहे हैं। इसी को देखते हुए ओर्निथ SWE-bench Pro पर भी आंकड़े जारी करता है, जो ज्यादा विविध और कम लीक हुए कोडबेस पर बना एक कठिन वर्जन है और उसी तरीके से स्कोर किया जाता है। वहां 397 बिलियन वाला मॉडल 62.2 पर पहुंचता है। यह आंकड़ा काफी कम है, लेकिन फिर भी मुकाबले में टिकता है और डीपसीक V4 प्रो से आगे ही रहता है।

9 बिलियन वाला मॉडल शायद इससे भी ज्यादा चौंकाने वाला नतीजा है। यह SWE-bench Verified पर 69.4 का स्कोर लाता है, जो जेम्मा 4-31B के 52 से ऊंचा है और क्वेन 3.5-35B के 70 के करीब है, जबकि यह उनसे तीन से चार गुना छोटा है।

यह असल में किसके लिए है

ओर्निथ-1.0 जानबूझकर कोई सर्व-उद्देश्यीय एआई नहीं है, और खुद मॉडल का दस्तावेज मानता है कि एजेंटिक कोडिंग के बाहर के कामों में यह कमजोर पड़ सकता है। अगर आपको किसी दस्तावेज का सार निकालना हो, पीएचडी की थीसिस लिखनी हो या एक ईमेल का मसौदा तैयार करना हो, तो यह गलत चुनाव है। यह एक सीमित काम के लिए तैयार किया गया है, ऐसी डेवलपर पाइपलाइनें जहां एआई एजेंट कोई काम लेता है, किसी कोड रिपॉजिटरी या टर्मिनल सेशन के भीतर चलता है और कई कदमों वाला काम खुद पूरा करता है। इसे उन लोगों के लिए बनाया गया है जो पहले से एजेंट इन्फ्रास्ट्रक्चर चला रहे हैं, न कि उनके लिए जो अब भी यह तय कर रहे हैं कि एआई इस्तेमाल करने लायक है या नहीं।

क्लॉड को पछाड़ने वाली बात सच है, लेकिन इसे सही संदर्भ में देखना जरूरी है। आज हर लैब एजेंटिक कोडिंग के पैमानों पर आगे निकलने की होड़ में है, क्योंकि असली और काम का फर्क वहीं दिखता है। ओर्निथ-1.0-397B दोनों कोडिंग बेंचमार्क पर क्लॉड ओपस 4.7 को पीछे छोड़ता है, मगर एंथ्रोपिक का मौजूदा फ्लैगशिप क्लॉड ओपस 4.8 इससे ऊंचा स्कोर करता है। जो तुलना असल में टिकती है वह ओपन-सोर्स श्रेणी के भीतर, मिलते-जुलते पैरामीटर वाले मॉडलों में, कोडिंग से जुड़े एजेंट कामों पर है। जो डेवलपर खुद की होस्ट की हुई कोडिंग पाइपलाइनें, एजेंटिक इन्फ्रास्ट्रक्चर या इससे मिलता-जुलता काम बना रहे हैं, उनके लिए एज हार्डवेयर पर चलने वाले छोटे और मझोले मॉडल वाकई उपयोगी हो सकते हैं। लेकिन आम यूजर के लिए बेहतर है कि वह कहीं और देखे।

इसका आप पर असर

डेवलपर्स के लिए: अगर आप पहले से एजेंटिक कोडिंग पाइपलाइनें चला रहे हैं, तो मुफ्त एमआईटी लाइसेंस वाले 9B और 31B मॉडल एज हार्डवेयर पर चल सकते हैं और आपके सेल्फ-होस्टेड डेवलपमेंट काम को तेज कर सकते हैं।
आम एआई यूजर के लिए: ईमेल, सारांश या निबंध लिखने जैसे रोजमर्रा के कामों में ओर्निथ बेकार है, इसलिए सामान्य कामों के लिए बातचीत वाले असिस्टेंट पर ही टिके रहना बेहतर है।

सवाल-जवाब

ओर्निथ-1.0 क्या है?

यह डीपरिइन्फोर्स का बनाया ओपन-सोर्स कोडिंग मॉडल्स का परिवार है, जो खास तौर पर एजेंटिक कोडिंग कामों के लिए तैयार किया गया है और हगिंग फेस पर उपलब्ध है।

इसमें कितने और कौन-कौन से साइज के मॉडल हैं?

इसमें चार साइज हैं, 9 बिलियन, 31 बिलियन, 35 बिलियन MoE और 397 बिलियन MoE फ्लैगशिप। ये सभी एमआईटी लाइसेंस के तहत बिना किसी क्षेत्रीय पाबंदी के उपलब्ध हैं।

क्या यह क्लॉड से बेहतर है?

397 बिलियन फ्लैगशिप SWE-bench Verified पर 82.4 और Terminal Bench 2.1 पर 77.5 के साथ क्लॉड ओपस 4.7 से आगे है, लेकिन एंथ्रोपिक का मौजूदा फ्लैगशिप क्लॉड ओपस 4.8 इससे ऊंचा स्कोर करता है।

9 बिलियन वाला मॉडल कितना अच्छा है?

यह SWE-bench Verified पर 69.4 का स्कोर लाता है, जो जेम्मा 4-31B के 52 से ऊंचा और क्वेन 3.5-35B के 70 के करीब है, जबकि यह उनसे तीन से चार गुना छोटा है।

क्या इसे ईमेल लिखने या दस्तावेज का सार निकालने में इस्तेमाल कर सकते हैं?

नहीं, मॉडल का अपना दस्तावेज मानता है कि एजेंटिक कोडिंग के बाहर के कामों में यह कमजोर पड़ सकता है, इसलिए ऐसे कामों के लिए यह गलत चुनाव है।

यह मॉडल किसके लिए बना है?

यह उन डेवलपर्स के लिए है जो सेल्फ-होस्टेड कोडिंग पाइपलाइनें और एजेंटिक इन्फ्रास्ट्रक्चर चलाते हैं, आम यूजर के लिए नहीं।

लेखक के बारे मेंAmit PatelBusiness Correspondent Delhi

विशेषज्ञताBusiness News, Financial Markets, Stock Market Analysis, Corporate Affairs, Startups, Entrepreneurship, Economic Trends, Technology Business, Investments, Global Economy

Amit Patel is a Business Correspondent covering global markets, finance, startups, technology, and economic trends. He delivers timely news, market analysis, and insights into the businesses and industries shaping the modern economy.

Amit Patel is a Business Correspondent covering global markets, finance, entrepreneurship, technology, and economic developments. He reports on breaking business news, corporate strategies, stock market trends, startup ecosystems, and industry innovations that shape the global economy. With a focus on accuracy, clarity, and in-depth analysis, Amit helps readers understand complex business topics and their real-world impact. His coverage spans financial markets, multinational corporations, emerging industries, economic policy, investment trends, and digital transformation. Through data-driven reporting and insightful analysis, Amit delivers timely business news and expert perspectives for professionals, investors, entrepreneurs, and general readers alike.

पूरा प्रोफ़ाइल देखें ↗