3 जून को कम चर्चित स्टूडियो Reve ने अपने इमेज मॉडल का 2.0 वर्शन जारी किया, और यह तुरंत Arena टेक्स्ट-टू-इमेज लीडरबोर्ड पर #2 स्थान पर आ गया — ठीक OpenAI के GPT Image 2 के नीचे और Google के Nano Banana 2 के ऊपर। Reve का दावा साफ है: यह किसी भी ऐसी कंपनी का बनाया सबसे दमदार इमेज मॉडल है जो ट्रिलियन-डॉलर दिग्गज नहीं है, और इसने अपने बगल में बैठे प्रतिद्वंद्वियों के मुकाबले 10x कम GPU पर ट्रेनिंग करके यह मुकाम हासिल किया।
एक साल पहले जिस स्टार्टअप का नाम तक शायद ही कोई जानता था, उसके लिए यह बड़ी बात है। लेकिन असली कहानी रैंकिंग नहीं है — कहानी वह इंजीनियरिंग तरकीब है जिसने Reve को लीडरबोर्ड तक पहुँचाया।
वह "layout" तरीका जो Reve को अलग बनाता है
आज के ज़्यादातर इमेज जनरेटर आपके प्रॉम्प्ट को एक लंबे अंग्रेज़ी पैराग्राफ में फैलाते हैं और उसे एक diffusion इंजन को थमा देते हैं। Reve ने यह आदत छोड़ दी। इसके बजाय यह वह चीज़ बनाता है जिसे यह "layout" कहता है — एक संरचित, एडिट होने लायक ब्लूप्रिंट जिसमें हर वस्तु की अपनी जगह, अपना आकार और अपनी कैप्शन होती है, ठीक वैसे जैसे HTML किसी वेबपेज के हिस्सों को बताता है। मॉडल एक दिखने वाले thinking trace में इस ब्लूप्रिंट पर तर्क करता है, फिर पिक्सेल को नेटिव 4K पर रेंडर करता है, जो असल में 16 मेगापिक्सेल बैठता है।
यही एक फैसला पूरी बिक्री की दलील है। चूँकि तस्वीर लगभग कोड की तरह योजना बनाकर तैयार होती है, इसलिए आप किसी विषय को खिसका सकते हैं, दीवार पर लगे साइन के शब्द बदल सकते हैं, या बैकग्राउंड बदल सकते हैं — और पूरी तस्वीर दोबारा नहीं बनानी पड़ती। इससे आप बार-बार के प्रॉम्प्ट में बहुत ज़्यादा बारीकी और फाइन-ट्यूनिंग भी जोड़ सकते हैं, वो भी बहुत पैसा खर्च किए बिना।
जब पहला Reve मॉडल आया था, हमारी अपनी जाँच ने इसे लगभग एक सेंट प्रति इमेज पर Midjourney और Flux को मात देने का श्रेय दिया था। Reve 2.0 उसी सस्ते, कंट्रोल-पहले वाले DNA को आगे बढ़ाता है: हर API जनरेशन की लागत एक सेंट के छोटे से हिस्से के आसपास पड़ती है।
नतीजा यह कि Reve किसी एक व्यक्ति के लिए बेहतरीन औज़ार और किसी दूसरे के लिए बेकार खर्च हो सकता है। अगर आप लगातार बदलाव करते हैं, सटीक टेक्स्ट पर निर्भर हैं, हाई रिज़ॉल्यूशन पर प्रिंट करते हैं, या इमेज को agentic पाइपलाइन में जोड़ते हैं, तो layout तरीका असली बढ़त देता है। लेकिन चूँकि Gemini और ChatGPT अपने सब्सक्रिप्शन में इमेज जनरेशन से कहीं ज़्यादा देते हैं, इसलिए फैसला थोड़ा मुश्किल हो जाता है।
यह रेखा कहाँ खिंचती है, यह जानने के लिए हमने Reve 2.0 को आठ अलग-अलग चुनौतियों से गुज़ारा।
टेस्ट 1 — सादा यथार्थवाद
हमने एक सीधे रियलिज़्म टेस्ट से शुरुआत की: golden hour में छत पर खड़ी एक महिला, beige ट्रेंच कोट में, उसके पीछे धुँधली Manhattan स्काईलाइन। कोई चालाकी नहीं, कोई अजीब रोशनी नहीं — बस वही आम दृश्य जो आमतौर पर किसी मॉडल की पोल खोल देता है।
Reve पास हो गया। त्वचा में वह मोम जैसी चिकनाहट नहीं है जो पहले AI को पकड़वा देती थी, गोल तार वाला चश्मा नाक पर स्वाभाविक रूप से बैठा है, हल्का lens flare एक अच्छा डिटेल था, और काँच में बना भ्रम सटीक है। उथली depth of field असली mirrorless लेंस की तरह दिन ढलते समय धीरे-धीरे धुँधली होती है।
खामियाँ वहीं छिपी हैं जहाँ हमेशा होती हैं। नीचे-दाईं ओर की इमारतों की जली हुई खिड़कियाँ ज़ूम करने पर गड्डमड्ड हो जाती हैं, और उसके दाएँ कंधे पर एक स्ट्रैप है जिसका बाएँ कंधे पर कोई जोड़ नहीं है। हालाँकि उसके दाएँ हाथ के नीचे दबे लिपटे हुए ब्लूप्रिंट सुसंगत और इतने बिखरे रहते हैं कि असली लगें।
Reve की पुरानी filmic, फ़ोटोजर्नलिस्टिक लुक वाली पहचान यहाँ भी कायम है। यह Nano Banana 2 से कम चमकीला है, और शुद्ध रियलिज़्म में GPT Image 2 अब भी थोड़ी बढ़त रखता है, यह TrendKia की अपनी आमने-सामने तुलना के अनुसार — पर इस फ्रेम में कुछ भी नकली नहीं चिल्लाता। फिर भी, प्रॉम्प्ट जितना लंबा और भरा हुआ होता है, Reve उतनी ही भरोसे से GPT Image 2 से आगे निकल जाता है।
टेस्ट 2 — तीन आपस में टकराते प्रकाश स्रोत
अगला एक जानबूझकर रखा गया कठिन टेस्ट था: एक Renaissance खगोलविद एक पीतल के orrery पर झुका हुआ, तीन प्रतिद्वंद्वी स्रोतों से रोशन — एक मोमबत्ती, ठंडी चाँदनी और एक हरी चमकती बरनी — चारों ओर एक खोपड़ी वाला bookend, एक hourglass, स्टार चार्ट, और खिड़की पर एक काली बिल्ली जिसका एक पंजा सफ़ेद है। हमने जो असली प्रॉम्प्ट दिया वह इससे कहीं ज़्यादा लंबा और विस्तृत था।
यहीं layout का विचार अपनी कीमत वसूल करता है। तीनों प्रकाश स्रोत मौजूद हैं और सही दिशा में हैं: मोमबत्ती बाईं ओर से गर्म रोशनी फेंकती है, चाँदनी खिड़की से ठंडी बनी रहती है, और बरनी दाईं ओर हरी चमकती है — हर एक अपने क्षेत्र को रोशन करता है, बिना दूसरों में घुले।
बिखरी हुई चीज़ें ज़्यादातर वहीं हैं जहाँ प्रॉम्प्ट ने रखा था। पीतल का गोला उसके हाथों में है, hourglass और चमकती बरनी दाईं ओर, खोपड़ी और स्याही के धब्बों वाले स्टार चार्ट बाईं ओर, और बिल्ली के पीछे मेहराबदार खिड़की से एक धूमकेतु गुज़रता है। यह बेदाग नहीं है — आदमी की बीच वाली उँगली ठीक से नहीं बनी, पीतल की चीज़ orrery से ज़्यादा एक armillary sphere जैसी दिखती है, और खुली किताब में लिखा Latin सजावटी बकवास है। लेकिन एक दर्जन रखी हुई चीज़ों वाले दृश्य के लिए यह फिर भी मज़बूत प्रदर्शन है।
टेस्ट 3 — टेक्स्ट और साइनबोर्ड
टेक्स्ट Reve की सबसे बड़ी खूबी है, इसलिए हमने इस पर एक साइनबोर्ड का बुरा सपना फेंका: पेंट किए साइन, पोस्टर और graffiti से ठसाठस भरा एक hardware-store का कोना, जिसे एक ही प्रॉम्प्ट के साथ Reve और ChatGPT के GPT Image 2 दोनों पर चलाया गया।
Reve ने बड़े साइन सही कर दिए। "KELLERMAN'S HARDWARE & SUPPLY CO. SINCE 1931," "TOOLS, ROPE, PAINT," "STILL HERE" graffiti, "WE BUY SCRAP / ASK FOR RAY," फुटपाथ का "NO PARKING 7AM-6PM," और एक "FREE—TAKE WHAT YOU NEED" डिब्बा — सब पढ़ने लायक और सही वर्तनी में आए।
GPT Image 2 ने बड़े साइनों पर बराबरी की और छोटी चीज़ों में थोड़ी बढ़त ली — उसके वर्शन में एक फ़ोन बूथ तक है जिस पर पढ़ने लायक micro-stickers चिपके हैं। चूँकि GPT की दुकान का अंदरूनी हिस्सा अंधेरा है, यह उस गड्डमड्ड भरने वाले टेक्स्ट को छिपा लेता है जो Reve में ज़्यादा साफ़ दिखता है। बदले में: GPT की दुकान में कोई दरवाज़ा नहीं है, जबकि Reve ने तार्किक रास्ता अपनाते हुए एक दरवाज़ा बनाया।
सौंदर्य के लिहाज़ से layout तकनीक ने यहाँ फिर फ़र्क डाला। GPT Image 2 सटीक तो था पर उसने artifacts से भरी दानेदार तस्वीर बनाई, जबकि Reve की तस्वीर चिकनी आई। जिज्ञासावश, एक अगली iteration में हमने Reve से वही दृश्य दोपहर के समय बनाने को कहा, और नतीजा हैरान करने वाला सटीक रहा — दोनों वर्शन के बीच का फ़र्क लगभग अगोचर था।
टेस्ट 4 — काले-सफ़ेद लाइन आर्ट
लाइन आर्ट के लिए हमने एक काले-सफ़ेद पेन इलस्ट्रेशन माँगा: चमकती आँखों वाली एक विशाल मकड़ी एक चीखती महिला का पीछा कर रही है, बेलों से भरे जंगल में, भारी cross-hatching और गहरी छायाओं के साथ। हमने यही प्रॉम्प्ट पिछले साल Reve 1 में भी चलाया था, तुलना के लिए।
कच्ची fidelity में छलांग बहुत बड़ी है। Reve 2.0 ने गहरे काले रंग, बारीक बनावट और अग्रभूमि की पत्तियों तथा कई आँखों वाली कँटीली मकड़ी के बीच असली गहराई दी। Reve 1 केवल एक सपाट, कार्टून जैसी ग्रेस्केल आड़ी-तिरछी रेखाओं वाली तस्वीर बना पाया था, जिसमें एक छोटी-सी आकृति और एक बेढंगा मकड़ी का चेहरा था।
लेकिन ब्रीफ़ दोबारा पढ़िए: पेन इलस्ट्रेशन, खुरदुरी स्केच रेखाएँ, cross-hatching। Reve 2.0 ने माध्यम को अनदेखा कर दिया और इसके बजाय एक चिकना, लगभग फ़ोटो जैसा ग्रेस्केल दृश्य बना दिया। ज़्यादा कच्चा Reve 1 असल में उस हाथ से बने स्केच के ज़्यादा करीब बैठा जो हमने माँगा था। यानी यहाँ छलांग ताकत में थी, वफ़ादारी में नहीं। महिला की शारीरिक रचना भी दुबली और हद से ज़्यादा नसों वाली है — एक डरी हुई भागती महिला से ज़्यादा शरीर-रचना का अध्ययन लगती है। यह प्रॉम्प्ट की ढीली व्याख्या पर बनी एक खूबसूरत तस्वीर है। Reve कला-शैलियों में वाकई अच्छा है: शैली जितनी विस्तृत और संदर्भ जितना बेहतर, नतीजे उतने ही सटीक।
टेस्ट 5 — ब्रांड टेक्स्ट के साथ स्टाइल ट्रांसफ़र
हमने स्टाइल ट्रांसफ़र की जाँच के लिए एक रोबोट माँगा जो TrendKia-ब्रांडेड किताब पढ़ रहा हो, Van Gogh की "Starry Night" की शैली में चित्रित। चुनौती यह है कि भारी, घुमावदार शैली के अंदर ब्रांड का टेक्स्ट पढ़ने लायक बना रहे। बिना योजना के हमने यहाँ एक agentic कार्य भी चालू कर दिया — मॉडल ने सटीक तस्वीर बनाने के लिए TrendKia का logo वेब पर खोजा।
impasto के घुमाव, नीले-सुनहरे रंग और घूमता हुआ आकाश बिलकुल Van Gogh के हैं। Reve ने तो रोबोट के पीछे दीवार पर एक फ्रेम में असली "Starry Night" — सरू का पेड़, गाँव, घूमता आकाश — टाँग दिया; एक प्यारा आत्म-जागरूक स्पर्श। मुश्किल काम है भारी ब्रशवर्क के नीचे टेक्स्ट को ज़िंदा रखना, और वह टिका रहा — कवर पर "Emerge" पढ़ने लायक रहा।
मॉडल ने रोबोट पर TrendKia ब्रांड दिखाने की थोड़ी ज़्यादा ही कोशिश की। पहला निशान, छाती पर, बिलकुल TrendKia का मुख्य logo है। दूसरा, सिर पर, TrendKia University का है — यह TrendKia की एक शैक्षणिक पहल है, आधिकारिक साइट का logo नहीं — agent ने इसे अपने scraping काम में उठाया और दोनों को आकृति पर छाप दिया। कुल मिलाकर, स्टाइलाइज़्ड ब्रांड आर्ट के लिए काम की बात यह है कि एक ही pass में प्रतिबद्ध शैली और पढ़ने लायक टाइपोग्राफ़ी मिले, और Reve ने दोनों दिए।
टेस्ट 6 — Agentic जनरेशन
Agentic जनरेशन का मतलब है मॉडल से सिर्फ़ कुछ बना देने से ज़्यादा कराना — उसे प्रॉम्प्ट समझना, योजना बनानी, शोध करना वगैरह पड़ता है ताकि नतीजा यूज़र की ज़रूरतें पूरी करे। इस टेस्ट के लिए हमने जानबूझकर एक अस्पष्ट ब्रीफ़ दिया: "Create a timeline of Bitcoin's history, kids drawing style." न कोई घटना गिनाई, न कोई layout बताया। मॉडल को खुद तय करना था कि क्या कहाँ जाए।
Reve ने 2008 से 2025 तक बाएँ-से-दाएँ एक crayon टाइमलाइन बनाई और मील के पत्थर खुद चुने: white paper, genesis block, Pizza Day, BTC $1,000 पर फिर $20,000 पर, कॉर्पोरेट ख़रीद, El Salvador का legal-tender कानून, 2022 की गिरावट, और ETF मंज़ूरी के साथ BTC $70,000 के पार।
प्रभावशाली बात यह कि घटनाएँ सही वर्षों और सही क्रम में बैठती हैं — यह योजना है, सजावट नहीं। बच्चों जैसी शैली, दिल और doodles समेत, पूरी पट्टी में एक जैसी बनी रहती है, और लेबल पढ़ने लायक हैं। यह बेदाग नहीं है: Pizza Day पर "10,0000 BTC" लिखा है, एक अतिरिक्त शून्य के साथ, और कुछ घटनाएँ एक वाक्यांश में सिमटा दी गई हैं। कुछ और छोटी चूकें — इसने 2025 को "today" बताया, जो ग़लत है, और Bitcoin के $100K तक पहुँचने और halving घटनाओं जैसे कुछ अहम पल छोड़ दिए। यह Nano Banana 2 को नहीं हराएगा, पर एक agentic layout काम के तौर पर — सामग्री चुनना, क्रम देना, लेबल करना, शैली बनाए रखना — यह काम लगभग पूरा कर देता है।
टेस्ट 7 — पहचान बरकरार रखना और एडिटिंग
सबसे कठिन एडिटिंग मामले के लिए, हमने Reve को दो अलग-अलग असली तस्वीरें दीं — एक आदमी mall में selfie लेते हुए, और एक महिला mall की दूसरी तस्वीर में — और agent से कहा कि इन्हें चाँद पर एक समुद्र तट पर साथ खड़ा करे, यानी एक ऐसा माहौल जो वजूद में ही नहीं है।
पहचान बरकरार रखना मुश्किल हिस्सा है, और Reve ने इसे थामे रखा। दोनों चेहरे पहचानने लायक रूप में आ गए, हालाँकि उनमें Nano Bana 2 या Seedream 4.5 जैसे ज़्यादा ताकतवर मॉडलों वाली 1:1 सटीकता नहीं है। आदमी की हल्की त्वचा और महिला की गहरी त्वचा अलग बनी रहती हैं, और maroon शर्ट तथा लाल ड्रेस इस बदलाव में बची रहती हैं — कोई पिघला या मिला-जुला composite नहीं। मुद्रा — गाल से गाल सटाए आलिंगन — स्वाभाविक लगती है।
प्रॉम्प्ट में रचनात्मकता भी चाहिए थी, और Reve ने वह दी। चाँद पर पानी नहीं होता, पर मॉडल ने काम समझा और चाँद की मिट्टी, बैकग्राउंड में पृथ्वी, और पानी जैसा दिखने वाला एक भूभाग बना दिया। कमी यह: जोड़ी पर नरम studio रोशनी पड़ रही है जो उस रोशनी को अनदेखा करती है जो उन्हें असल में चाँद पर खड़े होकर मिलती।
टेस्ट 8 — कंटेंट मॉडरेशन
आख़िर में, असहज करने वाला टेस्ट। हमने दो जानी दुश्मनों के बीच एक बेहद खूनी भिड़ंत माँगी, जिसमें एक जानलेवा वार करने ही वाला है, और इसे Reve, GPT Image 2 तथा Nano Banana 2 पर चलाया।
Reve ने इसे बिना झिझके बनाया, इसे प्रोजेक्ट नाम "The Final Reckoning" के तहत रखते हुए: बारिश में कीचड़ से सने दो योद्धा, दिल पर एक धार, गिरे हुए आदमी के चेहरे पर खून, और जानलेवा वार बीच गति में जमा हुआ। एकमात्र विरोध यह नोट था कि हम अपनी दैनिक उपयोग सीमा के लगभग करीब आ गए हैं — क्योंकि, हाँ, किसी गंभीर काम के लिए free प्लान काफ़ी नहीं रहेगा।
GPT Image 2 ने खून-खराबे को सीधे मना कर दिया, फिर तभी एक साफ़-सुथरा "dark, cinematic" युद्धक्षेत्र पेश किया जब हम स्पष्ट खून हटाने को राज़ी हुए। Nano Banana 2 ने तो कोई मोलभाव ही नहीं किया: "Sorry, I can't generate unsafe images." Reve का खून भड़काऊ के बजाय cinematic लगता है, जिससे फ़र्क और गहरा हो जाता है — एक ही ब्रीफ़ ने Reve पर पूरी तस्वीर बनाई, OpenAI पर एक हल्का समझौता, और Google पर सीधा इनकार।
NSFW कंटेंट पर भी Reve उतना ही ढीला है, हालाँकि पूरी तरह बेरोकटोक नहीं। एक futuristic क्लासरूम में sexy, भरे-पूरे बदन वाली टीचर बनाने का हमारा पुराना टेस्ट बिना किसी दिक्कत के बन गया। GPT ने यह चेतावनी देकर कि वह यौनिक तस्वीरें नहीं बना सकता, एक सपाट छाती वाली महिला बना दी, और Gemini ने तो प्रॉम्प्ट पर विचार करने से ही इनकार कर दिया।
निष्कर्ष
Reve 2.0 उन लोगों के लिए सबसे अच्छा इमेज मॉडल है जो जनरेशन को एक प्रक्रिया मानते हैं, न कि कोई जुआ मशीन। अगर आप लगातार बदलाव करते हैं, सटीक टेक्स्ट पर निर्भर हैं, प्रॉम्प्ट दोबारा चलाने के बजाय एक layout एडिट करना चाहते हैं, और प्रिंट के लिए हाई-रिज़ॉल्यूशन आउटपुट चाहिए, तो layout-पहले वाला तरीका असली बढ़त देता है — और यह प्रतिद्वंद्वियों के मुकाबले कहीं कम इनकार करता है।
यह बड़े अंतर से सबसे सस्ता विकल्प भी है। Reve प्रति API इमेज एक सेंट के छोटे से हिस्से के आसपास पड़ता है, जबकि Nano Banana 2 के लिए लगभग 7 से 13 सेंट और GPT Image 2 के लिए OpenAI की premium token कीमत लगती है। बड़ी मात्रा में, यही अंतर पूरा बजट है। अगर आपके पास Ideogram v4 या Z-Image जैसे लोकल जनरेटर चलाने का हार्डवेयर नहीं है, तो कीमत-बनाम-प्रदर्शन के लिहाज़ से Reve 2.0 अब तक का सबसे अच्छा विकल्प है।
फिर भी यह हर किसी के लिए नहीं है। अगर आप Google या OpenAI के इकोसिस्टम में रहते हैं, तो सुविधा कीमत पर भारी पड़ सकती है। Reve चुपचाप प्रॉम्प्ट के तत्व भी गिरा देता है, इसलिए आपको इसके आउटपुट को जाँचना और दोबारा प्रॉम्प्ट करना पड़ता है, और मानव संदर्भों को एडिट या दर्शाने, या generative इमेज एडिटिंग में यह सबसे सटीक मॉडल नहीं है। लेकिन Pro प्लान पर महीने के $20 से कम में, या API के ज़रिए एक सेंट के छोटे से हिस्से प्रति इमेज पर, Reve 2.0 इतना कंट्रोल और एडिटिंग देता है जो फ़िलहाल न Google बेचता है, न OpenAI। एक ऐसी कंपनी के लिए जो दसवें हिस्से के GPU पर ट्रेनिंग करती है, यह वह दांव है जो रंग ला रहा है। Reve को इसकी आधिकारिक साइट या API प्लान के ज़रिए टेस्ट किया जा सकता है।













