Veo 2- अगली पीढ़ी का वीडियो-जनरेटिंग AI

Google की प्रमुख AI शोध प्रयोगशाला, Google DeepMind, वीडियो-जनरेशन गेम में Open AI को हराना चाहती है – और हो सकता है कि यह कम से कम कुछ समय के लिए एक जीत हो। सोमवार को, DeepMind ने Veo 2 की घोषणा की, जो अगली पीढ़ी का वीडियो-जनरेटिंग AI है और Veo का उत्तराधिकारी है, जो Google के पोर्टफोलियो में उत्पादों की संख्या में बढ़ती शक्ति प्रदान करता है। Veo 2 4k (4096 x 2160 पिक्सेल) तक के रिज़ॉल्यूशन में दो मिनट से अधिक की क्लिप बना सकता है।

विशेष रूप से, यह Open AI का Sora के रिज़ॉल्यूशन का 4 गुना है – और इसकी अवधि का 6 गुना से अधिक परिणाम प्राप्त कर सकता है।

यह निश्चित है कि अभी के लिए, सैद्धांतिक रूप से यह आगे है। Google के प्रायोगिक वीडियो निर्माण उपकरण, VideoFX में, जहाँ Veo 2 अब विशेष रूप से उपलब्ध है, वीडियो की लंबाई 720p और आठ सेकंड तक सीमित है। (वहीं Sora 1080p, 20-सेकंड-लंबी क्लिप तक का उत्पादन कर सकता है।)

VideoFX प्रतीक्षा सूची में है, लेकिन Google का कहना है कि वह इस सप्ताह से इसे एक्सेस करने वाले उपयोगकर्ताओं की संख्या को बढ़ा रहा है।

DeepMind में उत्पाद के उपाध्यक्ष एली कोलिन्स ने TechCrunch को यह भी बताया कि “जैसे ही मॉडल बड़े पैमाने पर उपयोग के लिए तैयार हो जाएगा”, Google अपने Vertex AI डेवलपर प्लेटफ़ॉर्म के ज़रिए Veo 2 उपलब्ध कराएगा

कोलिन्स ने कहा, “आने वाले महीनों में, हम उपयोगकर्ताओं से मिलने वाले फ़ीडबैक के आधार पर इसे दोहराना जारी रखेंगे,” और [हम] Veo 2 की अपडेट की गई क्षमताओं को Google पारिस्थितिकी तंत्र में आकर्षक उपयोग के मामलों में एकीकृत करने की कोशिश करेंगे … [हमें] अगले साल और अपडेट साझा करने की उम्मीद है।”

अधिक नियंत्रण वाला
Veo की तरह, Veo 2 भी टेक्स्ट प्रॉम्प्ट (जैसे, “एक कार फ्री वे पर दौड़ रही है”) या टेक्स्ट और संदर्भ छवि दिए जाने पर वीडियो बना सकता है।

तो Veo 2 में नया क्या है?
खैर, DeepMind का कहना है कि मॉडल, जो कई शैलियों में क्लिप बना सकता है, इसे भौतिकी और कैमरा नियंत्रण की बेहतर “समझ” है, और यह “स्पष्ट” फुटेज बनाता है।

स्पष्ट से, DeepMind का मतलब है कि क्लिप में बनावट और छवियाँ अधिक स्पष्ट हैं – विशेष रूप से बहुत अधिक गति वाले दृश्यों में। बेहतर कैमरा नियंत्रणों के लिए, वे Veo 2 को अपने द्वारा बनाए गए वीडियो में वर्चुअल “कैमरा” को अधिक सटीक रूप से रखने और उस कैमरे को विभिन्न कोणों से वस्तुओं और लोगों को कैप्चर करने के लिए घुमाने में सक्षम बनाते हैं।

Check for Amazon Price

DeepMind यह भी दावा करता है कि Veo 2 गति, द्रव गतिकी (जैसे कि मग में कॉफी डालना) और प्रकाश के गुणों (जैसे छाया और प्रतिबिंब) को अधिक यथार्थवादी रूप से मॉडल कर सकता है। DeepMind का कहना है कि इसमें विभिन्न लेंस और सिनेमाई प्रभाव शामिल हैं, साथ ही “सूक्ष्म” मानवीय अभिव्यक्ति भी शामिल है। डीपमाइंड ने पिछले हफ़्ते टेकक्रंच के साथ वीओ 2 से कुछ चुनिंदा नमूने साझा किए। एआई-जनरेटेड वीडियो के लिए, वे बहुत अच्छे लगे – असाधारण रूप से अच्छे, यहाँ तक कि वीओ 2 में अपवर्तन और मेपल सिरप जैसे मुश्किल तरल पदार्थों की अच्छी समझ है, और पिक्सर-शैली के एनीमेशन की नकल करने की एक आदत है।

लेकिन डीपमाइंड के इस आग्रह के बावजूद कि मॉडल में अतिरिक्त उंगलियों या “अप्रत्याशित वस्तुओं” जैसे तत्वों की कम संभावना है, वीओ 2 इस अजीब घाटी को पार नहीं कर सकता है।
कोलिन्स ने माना कि अभी काम किया जाना बाकी है।

“सुसंगति और स्थिरता विकास के क्षेत्र हैं,” उन्होंने कहा। “वीओ लगातार कुछ मिनटों के लिए एक संकेत का पालन कर सकता है, लेकिन [यह] लंबे समय तक जटिल संकेतों का पालन नहीं कर सकता। इसी तरह, चरित्र स्थिरता एक चुनौती हो सकती है। जटिल विवरण, तेज़ और जटिल गति उत्पन्न करने और यथार्थवाद की सीमाओं को आगे बढ़ाने में भी सुधार की गुंजाइश है।”

कोलिन्स ने कहा कि डीपमाइंड अपने वीडियो-जनरेशन मॉडल और टूलिंग को परिष्कृत करने के लिए कलाकारों और निर्माताओं के साथ काम करना जारी रख रहा है।

“हमने अपने वीओ विकास की शुरुआत से ही डोनाल्ड ग्लोवर, द वीकेंड, डी4वीडी और अन्य जैसे क्रिएटिव के साथ काम करना शुरू कर दिया था, ताकि वास्तव में उनकी रचनात्मक प्रक्रिया को समझा जा सके और यह समझा जा सके कि तकनीक उनके विज़न को जीवन में लाने में कैसे मदद कर सकती है,” कोलिन्स ने कहा। “वीओ 1 पर क्रिएटर्स के साथ हमारे काम ने वीओ 2 के विकास को सूचित किया, और हम इस नए मॉडल पर प्रतिक्रिया प्राप्त करने के लिए विश्वसनीय परीक्षकों और क्रिएटर्स के साथ काम करने के लिए उत्सुक हैं।”

सुरक्षा और प्रशिक्षण
वीओ 2 को बहुत सारे वीडियो पर प्रशिक्षित किया गया था। आम तौर पर AI मॉडल इसी तरह काम करते हैं: किसी न किसी तरह के डेटा के उदाहरण के बाद, मॉडल डेटा में पैटर्न को पहचान लेते हैं जिससे उन्हें नया डेटा बनाने में मदद मिलती है।

Click for prices in Amazon.in

woofer-269x300 Veo 2- अगली पीढ़ी का वीडियो-जनरेटिंग AI — Bluetooth Subwoofer

DeepMind यह नहीं बताएगा कि उसने Veo 2 को प्रशिक्षित करने के लिए वीडियो को कहां से स्क्रैप किया, लेकिन YouTube एक संभावित स्रोत है; Google YouTube का मालिक है, और DeepMind ने पहले TechCrunch को बताया था कि Veo जैसे Google मॉडल को “शायद” कुछ YouTube सामग्री पर प्रशिक्षित किया जा सकता है।

कोलिन्स ने कहा, “Veo को उच्च-गुणवत्ता वाले वीडियो-वर्णन युग्मों पर प्रशिक्षित किया गया है।” “वीडियो-वर्णन युग्म एक वीडियो और उस वीडियो में क्या होता है, उसका संबंधित वर्णन है।” जबकि डीपमाइंड, Google के माध्यम से, वेबमास्टर्स को लैब के बॉट्स को उनकी वेबसाइट से प्रशिक्षण डेटा निकालने से रोकने के लिए टूल होस्ट करता है, डीपमाइंड क्रिएटर्स को अपने मौजूदा प्रशिक्षण सेट से काम हटाने की अनुमति देने के लिए कोई तंत्र प्रदान नहीं करता है। लैब और इसकी मूल कंपनी का कहना है कि सार्वजनिक डेटा का उपयोग करने वाले प्रशिक्षण मॉडल उचित उपयोग हैं, जिसका अर्थ है कि डीपमाइंड का मानना है कि डेटा मालिकों से अनुमति मांगने के लिए यह बाध्य नहीं है।

सभी क्रिएटिव सहमत नहीं हैं – विशेष रूप से उन अध्ययनों के आलोक में जो अनुमान लगाते हैं कि आने वाले वर्षों में AI द्वारा दसियों हज़ार फ़िल्म और टीवी की नौकरियाँ बाधित हो सकती हैं। लोकप्रिय AI आर्ट ऐप मिडजर्नी के पीछे नामांकित स्टार्टअप सहित कई AI कंपनियाँ उन पर बिना सहमति के सामग्री पर प्रशिक्षण देकर कलाकारों के अधिकारों का उल्लंघन करने का आरोप लगाते हुए मुकदमों की चपेट में हैं।

कोलिन्स ने कहा, “हम समान लक्ष्यों को प्राप्त करने के लिए क्रिएटर्स और अपने भागीदारों के साथ मिलकर काम करने के लिए प्रतिबद्ध हैं।” “हम रचनात्मक समुदाय और व्यापक उद्योग में लोगों के साथ काम करना जारी रखते हैं, अंतर्दृष्टि एकत्र करते हैं और प्रतिक्रिया सुनते हैं, जिसमें VideoFX का उपयोग करने वाले लोग भी शामिल हैं।” आज के जनरेटिव मॉडल जिस तरह से प्रशिक्षित होने पर व्यवहार करते हैं, उसके कारण उनमें कुछ जोखिम होते हैं, जैसे कि रीगर्जिटेशन, जिसका मतलब है कि जब कोई मॉडल प्रशिक्षण डेटा की मिरर कॉपी बनाता है। डीपमाइंड का समाधान प्रॉम्प्ट-लेवल फ़िल्टर है, जिसमें हिंसक, ग्राफ़िक और स्पष्ट सामग्री शामिल है।

Google की क्षतिपूर्ति नीति, जो अपने उत्पादों के उपयोग से उत्पन्न कॉपीराइट उल्लंघन के आरोपों के खिलाफ कुछ ग्राहकों के लिए बचाव प्रदान करती है, Veo 2 पर तब तक लागू नहीं होगी जब तक कि यह आम तौर पर उपलब्ध न हो जाए, कोलिन्स ने कहा। डीपफेक के जोखिम को कम करने के लिए, डीपमाइंड ने कहा कि यह अपनी मालिकाना वॉटरमार्किंग तकनीक, सिंथआईडी का उपयोग कर रहा है, ताकि वीओ 2 द्वारा बनाए गए फ़्रेम में अदृश्य मार्कर एम्बेड किए जा सकें। हालाँकि, सभी वॉटरमार्किंग तकनीक की तरह, सिंथआईडी भी पूरी तरह से सुरक्षित नहीं है।

इमेजन अपग्रेड
वीओ 2 के अलावा, Google डीपमाइंड ने आज सुबह इमेजन 3, अपने वाणिज्यिक इमेज जनरेशन मॉडल में अपग्रेड की घोषणा की है।

इमेजन 3 का एक नया संस्करण सोमवार से Google के इमेज-जनरेटिंग टूल इमेजएफएक्स के उपयोगकर्ताओं के लिए शुरू हो रहा है। डीपमाइंड के अनुसार, यह फोटोरियलिज्म, इंप्रेशनिज्म और एनीमे जैसी शैलियों में “उज्ज्वल, बेहतर-रचना” वाली छवियां और फ़ोटो बना सकता है।

डीपमाइंड ने टेकक्रंच को दिए गए एक ब्लॉग पोस्ट में लिखा “यह अपग्रेड [इमेजन 3 में] संकेतों का अधिक ईमानदारी से पालन करता है, और अधिक समृद्ध विवरण और बनावट प्रदान करता है”। मॉडल के साथ-साथ इमेजएफएक्स के लिए यूआई अपडेट भी जारी किए जा रहे हैं। अब, जब उपयोगकर्ता प्रॉम्प्ट टाइप करेंगे, तो उन प्रॉम्प्ट में मुख्य शब्द सुझाए गए, संबंधित शब्दों के ड्रॉप-डाउन मेनू के साथ “चिपलेट” बन जाएंगे। उपयोगकर्ता चिप्स का उपयोग करके जो उन्होंने लिखा है उसे दोहरा सकते हैं, या प्रॉम्प्ट के नीचे ऑटो-जेनरेटेड डिस्क्रिप्टर की एक पंक्ति से चुन सकते हैं।
साभार – techcrunch.com

Share this content: