Nvidia की लैब में रोबोट खुद को सिखा रहे हैं, इंसान की जगह AI कोडिंग एजेंट चला रहे हैं पूरी रिसर्चएआई
3 घंटे पहले· 3

Nvidia की लैब में रोबोट खुद को सिखा रहे हैं, इंसान की जगह AI कोडिंग एजेंट चला रहे हैं पूरी रिसर्च

Nvidia की GEAR लैब में आठ रोबोट आर्म्स ने AI कोडिंग एजेंट्स की मदद से खुद को पिन लगाना, ग्राफिक्स कार्ड बैठाना और ज़िप टाई काटना सिखाया, और चार असली कामों में 99% सफलता दर हासिल की।

जब रोबोट खुद चलाने लगे अपने प्रयोग

Nvidia की GEAR लैब में आठ रोबोट आर्म्स ने पिछले कुछ हफ्तों में अपने आप ही यह सीख लिया कि पिन कैसे लगाई जाती है, ग्राफिक्स कार्ड कैसे सही जगह बैठाया जाता है और ज़िप टाई कैसे काटी जाती है। इस पूरी कवायद में इंसानों का काम सिर्फ इतना था कि बाद में इस पर रिसर्च पेपर लिख दिया जाए।

यह कौशल ENPIRE नाम के एक फ्रेमवर्क से आया, जिसका ब्योरा मंगलवार को प्रकाशित एक पेपर में दिया गया। इस पेपर को Nvidia, Carnegie Mellon University और UC Berkeley के शोधकर्ताओं ने मिलकर तैयार किया है। ENPIRE की खासियत यह है कि यह रोबोट को ट्रेन करने का पूरा काम AI कोडिंग एजेंट्स के हवाले कर देता है, वही सॉफ्टवेयर जो पहले से खुद अपना कोड लिखता और जांचता है, और फिर इस पूरी प्रक्रिया को सीधे असली हार्डवेयर पर चलने देता है।

स्क्रीन से निकलकर असली दुनिया में

OpenAI के Codex, Anthropic के Claude Code और Moonshot के Kimi Code जैसे कोडिंग एजेंट्स बीते एक साल से वह काम कर रहे हैं जिसे शोधकर्ता ऑटोरिसर्च कहते हैं, यानी बिना किसी इंसान के बीच में आए कोड लिखना, उसे टेस्ट करना और फिर से लिखना। अब तक यह सिलसिला ज्यादातर स्क्रीन तक सीमित था, जहां किसी नाकाम प्रयोग को दोबारा शुरू करने में कोई कीमत नहीं चुकानी पड़ती। ENPIRE इसी सिलसिले को भौतिक दुनिया में ले आता है, जहां प्रयोग को रीसेट करने का मतलब है किसी असली रोबोट आर्म को हिलाना।

दो चरणों में बंटा हुआ काम

यह सिस्टम काम को दो हिस्सों में बांटता है। पहले चरण में एक इंसान एजेंट को दो स्थायी टूल बनाना सिखाता है। एक है रीसेट रूटीन, जो वर्कस्पेस को हर बार ताज़ा शुरुआती स्थिति में लौटा देता है, और दूसरा है रिवॉर्ड फंक्शन, जो कैमरा फुटेज देखकर तय करता है कि काम कितना सफल रहा। यह दूसरा टूल असल में एक ऐसे रेफरी की तरह है जो कभी पलक नहीं झपकाता और कभी लंच ब्रेक नहीं लेता। यह तैयारी सिर्फ एक बार होती है और उसके बाद हर कोशिश में इसी का इस्तेमाल होता है।

जैसे ही ये टूल बन जाते हैं, कमान पूरी तरह एजेंट के हाथ में आ जाती है। वह प्रकाशित शोध में से नए विचार खोजता है, फिर imitation learning, reinforcement learning या हाथ से लिखे नियमों जैसी ट्रेनिंग विधियों में से चुनता है, अपना कोड दोबारा लिखता है और नतीजे को रोबोट पर आज़माता है। इस पूरे चक्र में किसी इंसान को निगरानी की ज़रूरत नहीं होती, जो आपको आज़ादी जैसा लगे या थोड़ा बेचैन करने वाला, यह इस बात पर निर्भर करता है कि बिना निगरानी कैंची थामे रोबोट को लेकर आप कैसा महसूस करते हैं।

एक ऐसा बेड़ा जो सीख आपस में बांट लेता है

Nvidia ने यह प्रयोग आठ बाईमैनुअल रोबोट स्टेशनों पर चलाया, जिनमें से हर एक का अपना अलग हार्डवेयर, अपना कंप्यूटर और अपना कोडिंग एजेंट था। ये स्टेशन अपनी प्रगति आपस में Git के ज़रिए साझा करते हैं, वही टूल जिससे कोडर अपना कोड मर्ज करते हैं, ताकि कोई जीतने वाला विचार चंद मिनटों में पूरे बेड़े तक फैल जाए।

रफ्तार के पीछे के आंकड़े

शोधकर्ताओं ने इसका फायदा दो कामों पर मापा। पहला था “Push-T”, जिसमें रोबोट सिर्फ धक्के देकर एक T-आकार के ब्लॉक को निशाने वाले क्षेत्र में सरकाता है, और दूसरा था पिन इंसर्शन, जिसमें वह पिन को 4-मिलीमीटर के छेदों में पिरोता है। एक रोबोट से बढ़ाकर आठ रोबोट करने पर Push-T में महारत हासिल करने का समय लगभग पांच घंटे से घटकर दो घंटे रह गया, और पिन इंसर्शन का समय 90 मिनट से ज्यादा से घटकर करीब 40 मिनट हो गया।

पेपर के मुताबिक, जिन चार असली कामों की जांच की गई, उन सभी में एजेंट्स ने अपनी पॉलिसी को 99% सफलता दर तक पहुंचा दिया। पिन इंसर्शन के मामले में एजेंट्स ने एक तुलनीय human-in-the-loop तरीके की तुलना में तेज़ी से लगभग संपूर्ण भरोसेमंदता हासिल कर ली, यानी उस तरीके से तेज़ जिसमें अब भी हर सुबह किसी इंसान का मौजूद रहना ज़रूरी होता है।

शोधकर्ताओं की नज़र में

Nvidia के Jim Fan, जो GEAR Lab के सह-प्रमुख हैं और कंपनी की AI रिसर्च की अगुवाई करते हैं, ने इस प्रोजेक्ट को भौतिक दुनिया में पहली बार AutoResearch को संभव बनाने की कोशिश बताया। Fan के मुताबिक टीम ने एजेंट्स को रोबोट का एक बेड़ा, GPU का आवंटन और एक टोकन बजट सौंपा, फिर खुद पीछे हटकर रोबोट को कमान संभालने दी। 16 जून 2026 को उन्होंने लिखा:

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy…

जहां सिमुलेशन रुकता है और हकीकत शुरू होती है

सिमुलेशन और असलियत के बीच का फासला लगभग तुरंत सामने आ गया। पेपर बताता है कि तीनों कोडिंग एजेंट्स ने सिमुलेटर के अंदर तो Push-T को हल कर लिया, लेकिन जैसे ही वही काम असली रोबोट पर ले जाया गया, तीन में से दो नाकाम रहे। सिमुलेटर में घर्षण की समस्या नहीं होती, मगर असली मेज़ों पर होती है।

Nvidia ने ENPIRE को RoboCasa के अंदर भी परखा, जो एक सिमुलेटेड किचन बेंचमार्क है। यह रोबोट को कैबिनेट खोलने या चूल्हा बंद करने जैसे घरेलू कामों पर सफलता दर के आधार पर अंक देता है, और राहत की बात यह कि इसमें घर जलने का कोई खतरा नहीं रहता। यहां ENPIRE ने Nvidia के अपने end-to-end मॉडल GR00T और CaP-X दोनों से बेहतर प्रदर्शन किया, जहां CaP-X एक टूल इस्तेमाल करने वाला एजेंट है जो ऑटोरिसर्च के पूरे चक्र को ही छोड़ देता है।

Eureka से असली हार्डवेयर तक का सफर

ENPIRE दरअसल उसी विचार को आगे बढ़ाता है जिसे Nvidia ने पहली बार Eureka के साथ पेश किया था। Eureka 2023 का एक सिस्टम था, जो किसी सिमुलेटर के अंदर रोबोट के लिए रिवॉर्ड फंक्शन लिखने का काम इंसानी इंजीनियरों के हाथ से कराने के बजाय एक लैंग्वेज मॉडल से कराता था। ENPIRE इस सेल्फ-इम्प्रूवमेंट चक्र को सिमुलेटर से हटाकर असली हार्डवेयर पर ले आता है, जहां एजेंट सिर्फ अपने रिवॉर्ड ही नहीं, बल्कि अपने टेस्ट भी खुद डिज़ाइन करता है।

उद्योग में आकार लेती एक होड़

यह रिलीज़ ठीक उसी हफ्ते आई है जब Alibaba ने अपनी embodied-AI पहल Qwen-Robot Suite का अनावरण किया, जो रोबोट के नेविगेशन, मैनिपुलेशन और फिज़िक्स सिमुलेशन के लिए तीन फाउंडेशन मॉडलों का समूह है। Alibaba उन रोबोट शरीरों के लिए सॉफ्टवेयर रूपी दिमाग बना रहा है जिन्हें वह खुद नहीं बनाता, जबकि Nvidia यह परख रहा है कि क्या एजेंट्स पूरे रिसर्च चक्र को उस हार्डवेयर पर चला सकते हैं जो शुरू से आखिर तक उसी का अपना है। दोनों एक ही रुझान की ओर इशारा करते हैं, कि अब भौतिक रोबोट कोडिंग एजेंट्स के मुकाबले का अगला मैदान बनते जा रहे हैं।

सवाल-जवाब

ENPIRE क्या है और इसे किसने बनाया?
ENPIRE एक फ्रेमवर्क है जो रोबोट को ट्रेन करने का पूरा काम AI कोडिंग एजेंट्स को सौंप देता है। इसे Nvidia, Carnegie Mellon University और UC Berkeley के शोधकर्ताओं ने मिलकर तैयार किया है।
रोबोट ने कौन-कौन से काम सीखे और कितनी सफलता मिली?
आठ रोबोट आर्म्स ने पिन लगाना, ग्राफिक्स कार्ड बैठाना और ज़िप टाई काटना सीखा, और चार असली कामों में 99% सफलता दर हासिल की।
एक से आठ रोबोट करने पर समय में कितना फर्क पड़ा?
Push-T में महारत का समय लगभग पांच घंटे से घटकर दो घंटे रह गया, और पिन इंसर्शन का समय 90 मिनट से ज्यादा से घटकर करीब 40 मिनट हो गया।
सिमुलेशन और असली रोबोट में क्या अंतर दिखा?
तीनों कोडिंग एजेंट्स ने सिमुलेटर में Push-T हल कर लिया, लेकिन असली रोबोट पर तीन में से दो नाकाम रहे, क्योंकि असली मेज़ों पर घर्षण की समस्या होती है।
ट्रेंडकिया रिवॉर्ड्स

खबरें पढ़ें, असली रिवॉर्ड कमाएँ

हर लेख पढ़ने पर पॉइंट्स — ₹10,000 तक के गिफ्ट रिडीम करें। शामिल होना फ्री है।

फ्री रजिस्टर करें और कमाना शुरू करें
250मोबाइल रिचार्ज
12,500 · ≈ 12,500 रीड्स
कमाना शुरू करें
500गिफ्ट वाउचर
25,000 · ≈ 25,000 रीड्स
कमाना शुरू करें
1,000गिफ्ट कार्ड
50,000 · ≈ 50,000 रीड्स
कमाना शुरू करें
2,000गिफ्ट कार्ड
1,00,000 · ≈ 1,00,000 रीड्स
कमाना शुरू करें
3,000शॉपिंग वाउचर
1,50,000 · ≈ 1,50,000 रीड्स
कमाना शुरू करें
5,000कैश / UPI
2,50,000 · ≈ 2,50,000 रीड्स
कमाना शुरू करें
प्रीमियम7,500कैश / UPI
3,75,000 · ≈ 3,75,000 रीड्स
कमाना शुरू करें
प्रीमियम10,000कैश / UPI
5,00,000 · ≈ 5,00,000 रीड्स
कमाना शुरू करें
प्रीमियम15,000मेगा कैश
7,50,000 · ≈ 7,50,000 रीड्स
कमाना शुरू करें

टिप्पणियाँ 0

अभी तक कोई टिप्पणी नहीं — पहली टिप्पणी आपकी हो!

नागरिक पत्रकारिता

TrendKia पत्रकार बनें

जनता की आवाज़

अपने आसपास की ख़बरें, तस्वीरें और वीडियो ट्रेंडकिआ के साथ साझा करें और अपनी आवाज़ देश तक पहुँचाएँ। हर नागरिक एक पत्रकार।

अभी जुड़ें
नागरिक पत्रकारनागरिक पत्रकार
नागरिक पत्रकार
नागरिक पत्रकार