{
  "type": "article",
  "title": "Nvidia की लैब में रोबोट खुद को सिखा रहे हैं, इंसान की जगह AI कोडिंग एजेंट चला रहे हैं पूरी रिसर्च",
  "summary": "Nvidia की GEAR लैब में आठ रोबोट आर्म्स ने AI कोडिंग एजेंट्स की मदद से खुद को पिन लगाना, ग्राफिक्स कार्ड बैठाना और ज़िप टाई काटना सिखाया, और चार असली कामों में 99% सफलता दर हासिल की।",
  "content": "जब रोबोट खुद चलाने लगे अपने प्रयोग\nNvidia की GEAR लैब में आठ रोबोट आर्म्स ने पिछले कुछ हफ्तों में अपने आप ही यह सीख लिया कि पिन कैसे लगाई जाती है, ग्राफिक्स कार्ड कैसे सही जगह बैठाया जाता है और ज़िप टाई कैसे काटी जाती है। इस पूरी कवायद में इंसानों का काम सिर्फ इतना था कि बाद में इस पर रिसर्च पेपर लिख दिया जाए।\n\nयह कौशल ENPIRE नाम के एक फ्रेमवर्क से आया, जिसका ब्योरा मंगलवार को प्रकाशित एक पेपर में दिया गया। इस पेपर को Nvidia, Carnegie Mellon University और UC Berkeley के शोधकर्ताओं ने मिलकर तैयार किया है। ENPIRE की खासियत यह है कि यह रोबोट को ट्रेन करने का पूरा काम AI कोडिंग एजेंट्स के हवाले कर देता है, वही सॉफ्टवेयर जो पहले से खुद अपना कोड लिखता और जांचता है, और फिर इस पूरी प्रक्रिया को सीधे असली हार्डवेयर पर चलने देता है।\n\n \n\nस्क्रीन से निकलकर असली दुनिया में\nOpenAI के Codex, Anthropic के Claude Code और Moonshot के Kimi Code जैसे कोडिंग एजेंट्स बीते एक साल से वह काम कर रहे हैं जिसे शोधकर्ता ऑटोरिसर्च कहते हैं, यानी बिना किसी इंसान के बीच में आए कोड लिखना, उसे टेस्ट करना और फिर से लिखना। अब तक यह सिलसिला ज्यादातर स्क्रीन तक सीमित था, जहां किसी नाकाम प्रयोग को दोबारा शुरू करने में कोई कीमत नहीं चुकानी पड़ती। ENPIRE इसी सिलसिले को भौतिक दुनिया में ले आता है, जहां प्रयोग को रीसेट करने का मतलब है किसी असली रोबोट आर्म को हिलाना।\n\nदो चरणों में बंटा हुआ काम\nयह सिस्टम काम को दो हिस्सों में बांटता है। पहले चरण में एक इंसान एजेंट को दो स्थायी टूल बनाना सिखाता है। एक है रीसेट रूटीन, जो वर्कस्पेस को हर बार ताज़ा शुरुआती स्थिति में लौटा देता है, और दूसरा है रिवॉर्ड फंक्शन, जो कैमरा फुटेज देखकर तय करता है कि काम कितना सफल रहा। यह दूसरा टूल असल में एक ऐसे रेफरी की तरह है जो कभी पलक नहीं झपकाता और कभी लंच ब्रेक नहीं लेता। यह तैयारी सिर्फ एक बार होती है और उसके बाद हर कोशिश में इसी का इस्तेमाल होता है।\n\nजैसे ही ये टूल बन जाते हैं, कमान पूरी तरह एजेंट के हाथ में आ जाती है। वह प्रकाशित शोध में से नए विचार खोजता है, फिर imitation learning, reinforcement learning या हाथ से लिखे नियमों जैसी ट्रेनिंग विधियों में से चुनता है, अपना कोड दोबारा लिखता है और नतीजे को रोबोट पर आज़माता है। इस पूरे चक्र में किसी इंसान को निगरानी की ज़रूरत नहीं होती, जो आपको आज़ादी जैसा लगे या थोड़ा बेचैन करने वाला, यह इस बात पर निर्भर करता है कि बिना निगरानी कैंची थामे रोबोट को लेकर आप कैसा महसूस करते हैं।\n\nएक ऐसा बेड़ा जो सीख आपस में बांट लेता है\nNvidia ने यह प्रयोग आठ बाईमैनुअल रोबोट स्टेशनों पर चलाया, जिनमें से हर एक का अपना अलग हार्डवेयर, अपना कंप्यूटर और अपना कोडिंग एजेंट था। ये स्टेशन अपनी प्रगति आपस में Git के ज़रिए साझा करते हैं, वही टूल जिससे कोडर अपना कोड मर्ज करते हैं, ताकि कोई जीतने वाला विचार चंद मिनटों में पूरे बेड़े तक फैल जाए।\n\nरफ्तार के पीछे के आंकड़े\nशोधकर्ताओं ने इसका फायदा दो कामों पर मापा। पहला था “Push-T”, जिसमें रोबोट सिर्फ धक्के देकर एक T-आकार के ब्लॉक को निशाने वाले क्षेत्र में सरकाता है, और दूसरा था पिन इंसर्शन, जिसमें वह पिन को 4-मिलीमीटर के छेदों में पिरोता है। एक रोबोट से बढ़ाकर आठ रोबोट करने पर Push-T में महारत हासिल करने का समय लगभग पांच घंटे से घटकर दो घंटे रह गया, और पिन इंसर्शन का समय 90 मिनट से ज्यादा से घटकर करीब 40 मिनट हो गया।\n\nपेपर के मुताबिक, जिन चार असली कामों की जांच की गई, उन सभी में एजेंट्स ने अपनी पॉलिसी को 99% सफलता दर तक पहुंचा दिया। पिन इंसर्शन के मामले में एजेंट्स ने एक तुलनीय human-in-the-loop तरीके की तुलना में तेज़ी से लगभग संपूर्ण भरोसेमंदता हासिल कर ली, यानी उस तरीके से तेज़ जिसमें अब भी हर सुबह किसी इंसान का मौजूद रहना ज़रूरी होता है।\n\nशोधकर्ताओं की नज़र में\nNvidia के Jim Fan, जो GEAR Lab के सह-प्रमुख हैं और कंपनी की AI रिसर्च की अगुवाई करते हैं, ने इस प्रोजेक्ट को भौतिक दुनिया में पहली बार AutoResearch को संभव बनाने की कोशिश बताया। Fan के मुताबिक टीम ने एजेंट्स को रोबोट का एक बेड़ा, GPU का आवंटन और एक टोकन बजट सौंपा, फिर खुद पीछे हटकर रोबोट को कमान संभालने दी। 16 जून 2026 को उन्होंने लिखा:\n\n Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy…\n\nजहां सिमुलेशन रुकता है और हकीकत शुरू होती है\nसिमुलेशन और असलियत के बीच का फासला लगभग तुरंत सामने आ गया। पेपर बताता है कि तीनों कोडिंग एजेंट्स ने सिमुलेटर के अंदर तो Push-T को हल कर लिया, लेकिन जैसे ही वही काम असली रोबोट पर ले जाया गया, तीन में से दो नाकाम रहे। सिमुलेटर में घर्षण की समस्या नहीं होती, मगर असली मेज़ों पर होती है।\n\nNvidia ने ENPIRE को RoboCasa के अंदर भी परखा, जो एक सिमुलेटेड किचन बेंचमार्क है। यह रोबोट को कैबिनेट खोलने या चूल्हा बंद करने जैसे घरेलू कामों पर सफलता दर के आधार पर अंक देता है, और राहत की बात यह कि इसमें घर जलने का कोई खतरा नहीं रहता। यहां ENPIRE ने Nvidia के अपने end-to-end मॉडल GR00T और CaP-X दोनों से बेहतर प्रदर्शन किया, जहां CaP-X एक टूल इस्तेमाल करने वाला एजेंट है जो ऑटोरिसर्च के पूरे चक्र को ही छोड़ देता है।\n\nEureka से असली हार्डवेयर तक का सफर\nENPIRE दरअसल उसी विचार को आगे बढ़ाता है जिसे Nvidia ने पहली बार Eureka के साथ पेश किया था। Eureka 2023 का एक सिस्टम था, जो किसी सिमुलेटर के अंदर रोबोट के लिए रिवॉर्ड फंक्शन लिखने का काम इंसानी इंजीनियरों के हाथ से कराने के बजाय एक लैंग्वेज मॉडल से कराता था। ENPIRE इस सेल्फ-इम्प्रूवमेंट चक्र को सिमुलेटर से हटाकर असली हार्डवेयर पर ले आता है, जहां एजेंट सिर्फ अपने रिवॉर्ड ही नहीं, बल्कि अपने टेस्ट भी खुद डिज़ाइन करता है।\n\nउद्योग में आकार लेती एक होड़\nयह रिलीज़ ठीक उसी हफ्ते आई है जब Alibaba ने अपनी embodied-AI पहल Qwen-Robot Suite का अनावरण किया, जो रोबोट के नेविगेशन, मैनिपुलेशन और फिज़िक्स सिमुलेशन के लिए तीन फाउंडेशन मॉडलों का समूह है। Alibaba उन रोबोट शरीरों के लिए सॉफ्टवेयर रूपी दिमाग बना रहा है जिन्हें वह खुद नहीं बनाता, जबकि Nvidia यह परख रहा है कि क्या एजेंट्स पूरे रिसर्च चक्र को उस हार्डवेयर पर चला सकते हैं जो शुरू से आखिर तक उसी का अपना है। दोनों एक ही रुझान की ओर इशारा करते हैं, कि अब भौतिक रोबोट कोडिंग एजेंट्स के मुकाबले का अगला मैदान बनते जा रहे हैं।\n\nइसका आप पर असर\n• टेक और ऑटोमेशन में रुचि रखने वालों के लिए: अगर AI एजेंट असली हार्डवेयर पर खुद रोबोट को ट्रेन कर सकते हैं, तो फैक्ट्री और वेयरहाउस ऑटोमेशन की लागत और समय दोनों तेज़ी से घट सकते हैं।\n• निवेशकों के लिए: Nvidia और Alibaba दोनों embodied-AI पर दांव लगा रहे हैं, जिससे रोबोटिक्स अगला बड़ा प्रतिस्पर्धा क्षेत्र बनता दिख रहा है।\n\nसवाल-जवाब\n\n1. ENPIRE क्या है और इसे किसने बनाया?\nENPIRE एक फ्रेमवर्क है जो रोबोट को ट्रेन करने का पूरा काम AI कोडिंग एजेंट्स को सौंप देता है। इसे Nvidia, Carnegie Mellon University और UC Berkeley के शोधकर्ताओं ने मिलकर तैयार किया है।\n\n2. रोबोट ने कौन-कौन से काम सीखे और कितनी सफलता मिली?\nआठ रोबोट आर्म्स ने पिन लगाना, ग्राफिक्स कार्ड बैठाना और ज़िप टाई काटना सीखा, और चार असली कामों में 99% सफलता दर हासिल की।\n\n3. एक से आठ रोबोट करने पर समय में कितना फर्क पड़ा?\nPush-T में महारत का समय लगभग पांच घंटे से घटकर दो घंटे रह गया, और पिन इंसर्शन का समय 90 मिनट से ज्यादा से घटकर करीब 40 मिनट हो गया।\n\n4. सिमुलेशन और असली रोबोट में क्या अंतर दिखा?\nतीनों कोडिंग एजेंट्स ने सिमुलेटर में Push-T हल कर लिया, लेकिन असली रोबोट पर तीन में से दो नाकाम रहे, क्योंकि असली मेज़ों पर घर्षण की समस्या होती है।",
  "url": "https://trendkia.com/ai/nvidia-ki-laiba-men-robota-khuda-ko-sikha-rahe-hain-insana-ki-jagaha-ai-kodinga--1555",
  "category": "एआई",
  "publishedAt": "2026-06-17",
  "tags": [
    "Nvidia रोबोट",
    "ENPIRE फ्रेमवर्क",
    "AI कोडिंग एजेंट",
    "GEAR लैब",
    "रोबोट ट्रेनिंग",
    "embodied AI",
    "Jim Fan",
    "AutoResearch"
  ],
  "language": "hi",
  "site": "TrendKia"
}