होम » नवीनतम समाचार » एआई वीडियो इनोवेशन: हाथों से मुक्त कार्ड ड्राइंग क्रांति
कवर छवि एआई वीडियो प्रौद्योगिकी की।

एआई वीडियो इनोवेशन: हाथों से मुक्त कार्ड ड्राइंग क्रांति

“स्क्विड गेम” देखने के बाद संतुष्ट नहीं हैं? अपना खुद का अंत बनाएँ।

स्क्विड गेम से छवि
कस्टम स्क्विड गेम के अंत का GIF

क्या आप "ड्यून पार्ट थ्री" का इंतज़ार नहीं कर सकते? अपना खुद का संस्करण बनाएँ।

छवि ड्यून से ली गई है
कस्टम ड्यून दृश्य का GIF

पहले, चरित्र की एकरूपता बनाए रखने के लिए काफी समय की आवश्यकता होती थी। अब, केवल एक स्क्रीनशॉट के साथ, AI मूवी बनाना शुरू कर सकता है।

यह नए S2V-01 मॉडल द्वारा संचालित Conch AI के "विषय संदर्भ" सुविधा के लिए धन्यवाद है। यह अपलोड की गई छवियों में विषय को सटीक रूप से पहचानता है और इसे उत्पन्न वीडियो में चरित्र के रूप में सेट करता है। बाकी सरल है: बुनियादी निर्देशों के साथ स्वतंत्र रूप से बनाएँ।

चेहरे की सटीक जानकारी को दर्शाने वाला GIF
एक्स उपयोगकर्ता @KarolineGeorges द्वारा निर्मित, चेहरे की सटीक जानकारी के साथ”
विविध विषयों को दर्शाने वाला GIF
एक्स उपयोगकर्ता @Apple_Dog_Sol द्वारा निर्मित, विविध विषयों को प्रदर्शित करता हुआ”

“विषय संदर्भ” सुविधा के लाभ

कई कंपनियां "विषय संदर्भ" सुविधाएं विकसित कर रही हैं, लेकिन सभी स्थिरता और सुसंगति की चुनौतियों का सामना नहीं कर सकती हैं, विशेष रूप से गति में निरंतरता बनाए रखना।

जबकि अन्य को संघर्ष करना पड़ सकता है, कोंच एआई उत्कृष्ट है। केवल एक छवि के साथ, यह चरित्र लक्षणों को सटीक रूप से समझता है, उन्हें विषयों के रूप में पहचानता है, और उन्हें विभिन्न दृश्यों में रखता है।

एक पल स्पाइडर-मैन दुनिया को बचा रहा है, अगले ही पल वह मोटरसाइकिल चला रहा है।

जाले पर मकड़ी

जाले पर चलती मकड़ी

ड्रेगन की माँ, जिसे "गेम ऑफ थ्रोन्स" में ड्रेगन को प्रशिक्षित करना चाहिए, अब एक छोटे भेड़िये के साथ खेल रही है।

भेड़िये के साथ ड्रेगन की माँ
ड्रेगन की माँ एक भेड़िये के साथ खेल रही है

"विषय संदर्भ" में सफलता रचनात्मक स्वतंत्रता और निष्ठा के बीच संतुलन हासिल करने में निहित है। यह रचनाकारों को एक "सार्वभौमिक अभिनेता" देने जैसा है, जिसका स्वरूप विकृत नहीं होता बल्कि स्वाभाविक रूप से क्रियाओं और मुद्राओं के साथ बदलता है, जो निर्देशक द्वारा अपेक्षित किसी भी दृश्य में कोई भी क्रिया करता है।

न केवल एक नई सुविधा, बल्कि एक अद्वितीय तकनीकी समाधान

वास्तविक परीक्षण अनुभव से पता चलता है कि विषय संदर्भ एक अलग कार्य है, जिसमें टेक्स्ट-टू-इमेज या इमेज-टू-इमेज निर्माण की तुलना में भिन्न तकनीकी चुनौतियां और आवश्यकताएं होती हैं।

पारंपरिक छवि-से-वीडियो पीढ़ी केवल स्थिर छवियों को एनिमेट करती है, मुख्य रूप से आंशिक संशोधनों के साथ। उदाहरण के लिए, सॉन्ग हये-क्यो की इस तस्वीर में, छवि-से-वीडियो केवल स्थिर छवि को सीमित सीमा और बिना किसी महत्वपूर्ण हलचल के गतिशील छवि में बदल देता है।

सॉन्ग हये-क्यो का मूल चित्र
मूल चित्र
सॉन्ग हये-क्यो का एनिमेटेड चित्र
छवि से वीडियो में परिवर्तित वीडियो

एक ही फोटो के साथ, "विषय संदर्भ" पाठ संकेतों के आधार पर एक पूर्ण खंड बना सकता है, जिससे चेहरे की स्थिर विशेषताओं को बनाए रखते हुए मुक्त गति की अनुमति मिलती है।

सॉन्ग हये-क्यो का बनाया गया वीडियो
गर्म इनडोर लाइटिंग, थिएटर के दर्शकों में, काले सूट में मुख्य पात्र, बाईं ओर बीच में बैठा है। उसकी अभिव्यक्ति केंद्रित है, कभी-कभी हल्के से मुस्कुराती है, स्वाभाविक और लयबद्ध तरीके से ताली बजाती है। कैमरा उसकी तरफ से शुरू होता है, अन्य दर्शकों के सिल्हूट और मंद सीट बनावट को कैप्चर करता है, जो पर्यावरण की गहराई पर जोर देता है। जैसे ही कैमरा अंदर आता है, मुख्य पात्र खड़ा हो जाता है।

वर्तमान में किसी विषय के साथ वीडियो बनाने के लिए दो तकनीकी मार्ग हैं। एक LoRA तकनीक पर आधारित है, जो पहले से प्रशिक्षित बड़े जनरेटिव मॉडल को ठीक करता है। नए वीडियो बनाते समय LoRA को महत्वपूर्ण गणना की आवश्यकता होती है, जिससे उपयोगकर्ताओं को एक ही विषय के कई कोण अपलोड करने पड़ते हैं, यहाँ तक कि गुणवत्ता सुनिश्चित करने के लिए प्रत्येक खंड के लिए अलग-अलग तत्व निर्दिष्ट करने पड़ते हैं। इसमें कई टोकन भी खर्च होते हैं और लंबे समय तक प्रतीक्षा करने की आवश्यकता होती है।

व्यापक तकनीकी अन्वेषण के बाद, मिनीमैक्स ने छवि संदर्भ के आधार पर एक मार्ग चुना: छवियों में सबसे सटीक दृश्य जानकारी होती है, जो भौतिक शूटिंग के रचनात्मक तर्क के साथ संरेखित होती है। इस मार्ग में, छवि में नायक पहचान के लिए मॉडल की सर्वोच्च प्राथमिकता है - बाद के दृश्यों या कथानक की परवाह किए बिना, विषय को सुसंगत रहना चाहिए।

अन्य दृश्य जानकारी पाठ संकेतों द्वारा अधिक खुली और नियंत्रित होती है। यह दृष्टिकोण "सटीक पुनरुत्पादन + उच्च स्वतंत्रता" के लक्ष्य को प्राप्त करता है।

ड्रैगन के साथ ड्रेगन की माँ
पात्र एक ड्रैगन के सामने खड़ा है, उसके बाल और पोशाक हवा में उड़ रहे हैं।
घाटी के एक खुले स्थान में नायक एक ड्रैगन के सामने खड़ा है, जिसके लंबे बाल हवा में लहरा रहे हैं। कैमरा धीरे-धीरे ज़ूम आउट करता है, नायक को दूर की ओर देखने के लिए मुड़ते हुए कैप्चर करता है। ड्रैगन के पंख फैल जाते हैं, नायक के बाल और पोशाक उड़ जाती है, और दृश्य एक ओवरहेड शॉट के साथ समाप्त होता है।”

इस वीडियो में मॉडल को ड्रैगन क्वीन की सिर्फ़ एक तस्वीर दी गई थी। अंतिम रूप से तैयार किए गए वीडियो में प्रॉम्प्ट में बताए गए कैमरा लैंग्वेज और विज़ुअल तत्वों को सटीक रूप से प्रस्तुत किया गया, जिससे एक मज़बूत समझ का प्रदर्शन हुआ।

LoRA समाधान की तुलना में, यह तकनीकी दृष्टिकोण उपयोगकर्ताओं को अपलोड करने के लिए आवश्यक सामग्री की मात्रा को काफी कम कर देता है, दर्जनों वीडियो खंडों को एक ही छवि में बदल देता है। प्रतीक्षा समय सेकंड में मापा जाता है, जो टेक्स्ट या छवियों को बनाने में लगने वाले समय के समान लगता है - छवि-से-वीडियो की सटीकता को टेक्स्ट-से-वीडियो की स्वतंत्रता के साथ जोड़ता है।

चीनी विनिर्माण की मुख्य विशेषताएं, आपकी विविध आवश्यकताओं की पूर्ति

कई ज़रूरतें अत्यधिक मांग नहीं हैं। केवल एक साथ सटीक और सुसंगत चरित्र छवियों और मुक्त आंदोलन को प्राप्त करके ही मॉडल सरल मनोरंजन उपयोगों को पार कर सकता है और उद्योग अनुप्रयोगों में व्यापक मूल्य प्राप्त कर सकता है।

उदाहरण के लिए, उत्पाद विज्ञापनों में, एक एकल मॉडल छवि केवल संकेत शब्दों को बदलकर सीधे विभिन्न उत्पाद वीडियो उत्पन्न कर सकती है।

गतिशील वीडियो निर्माण को प्रदर्शित करता हुआ गतिमान धावक।
ग्लास उत्पाद वीडियो, विस्तृत दृश्य निर्माण पर प्रकाश डालता है।

यदि इमेज-टू-वीडियो विधियों का उपयोग किया जाता है, तो वर्तमान मुख्यधारा समाधान पहले और अंतिम फ़्रेम को सेट करना है, जिसका प्रभाव मौजूदा छवियों द्वारा सीमित है। इसके लिए अलग-अलग कोणों को इकट्ठा करने और फिर शॉट्स के अनुक्रम को पूरा करने के लिए सामग्रियों को एक साथ जोड़ने के लिए बार-बार प्रयास करने की भी आवश्यकता होती है।

वीडियो निर्माण कार्यप्रवाह को बेहतर ढंग से फिट करने के लिए विभिन्न तकनीकों की विशेषताओं को संयोजित करना "विषय संदर्भ" का लाभ है। भविष्य में, 80% से अधिक मार्केटिंग पेशेवर विभिन्न चरणों में जनरेटिव टूल का उपयोग करेंगे, केवल कहानी और कथानक की अवधारणा पर ध्यान केंद्रित करेंगे, जिससे उनके हाथ खाली रहेंगे।

स्टैटिस्टा के अनुसार, विज्ञापन और मार्केटिंग में जनरेटिव एआई उत्पादों का बाजार आकार 15 में $2021 बिलियन से अधिक हो गया। 2028 तक, यह संख्या $107.5 बिलियन तक पहुँच जाएगी। पिछले वर्कफ़्लो में, शुद्ध टेक्स्ट-टू-वीडियो में बहुत सारे अनियंत्रित कारक थे, जो निर्माण के शुरुआती चरणों के लिए उपयुक्त थे। यूरोपीय और अमेरिकी विज्ञापन और विपणन उद्योगों में, जनरेटिव AI पहले से ही बहुत आम है, जिसमें ड्राफ्ट और प्लानिंग के लिए 52% उपयोग के मामले और विचार-मंथन के लिए 48% मामले हैं।

वर्तमान में, Hailuo AI सबसे पहले एक ही चरित्र के लिए संदर्भ क्षमता खोलता है। भविष्य में, यह कई पात्रों, वस्तुओं, दृश्यों और बहुत कुछ तक विस्तारित होगा, रचनात्मकता को और अधिक उन्मुक्त करेगा, जैसा कि Hailuo के नारे में प्रस्तावित है, "हर विचार एक ब्लॉकबस्टर है।"

चूंकि मिनीमैक्स ने अगस्त 2023 में वीडियो मॉडल जारी किया था, तब से इसने लगातार अंतरराष्ट्रीय स्तर पर बड़ी संख्या में उपयोगकर्ताओं को आकर्षित किया है, उत्पन्न छवियों की गुणवत्ता और चिकनाई से लेकर स्थिरता और स्थिरता तक, बहुत सारी सकारात्मक प्रतिक्रिया और पेशेवर मान्यता प्राप्त की है।

हाइलूओ एआई लोगो
टेकहल्ला लोगो.

तकनीकी प्रतिस्पर्धा के पिछले वर्ष में, एआई वीडियो निर्माण क्षेत्र का प्रतिस्पर्धी परिदृश्य शुरू में उभरा है। सोरा के कार्यान्वयन ने वीडियो निर्माण की क्षमता को दिखाया, जिससे प्रमुख तकनीकी कंपनियों को इस क्षेत्र में भारी निवेश करने के लिए प्रेरित किया गया।

2024 के अंत में सोरा के उत्पाद के विलंबित लॉन्च और औसत उपयोगकर्ता समीक्षाओं के साथ, यह बाजार की अपेक्षाओं को पूरा करने में विफल रहा, जिससे अन्य खिलाड़ियों को बाजार पर कब्जा करने का मौका मिल गया।

अब, जबकि जनरेटिव वीडियो दूसरी छमाही में प्रवेश कर रहा है, केवल तीन कंपनियां ही सही मायने में तकनीकी ताकत और विकास क्षमता का प्रदर्शन कर रही हैं: मिनीमैक्स की हैलुओ एआई, कुआइशौ की केलिंग एआई, और बाइटडांस की जिमेंग एआई।

महज तीन साल पहले स्थापित एक स्टार्टअप के रूप में, मिनीमैक्स ने ऐसे उत्पाद और तकनीकें लाई हैं जो अपने छोटे स्टार्टअप आकार के साथ शीर्ष स्तर पर प्रतिस्पर्धा कर सकती हैं। दिसंबर 2 में I01V-2023-लाइव इमेज-टू-वीडियो मॉडल से लेकर नए S2V-01 मॉडल तक, वे पिछली वीडियो पीढ़ी की चुनौतियों का समाधान कर रहे हैं।

जैसे-जैसे तकनीक परिपक्व होती जा रही है और अनुप्रयोग परिदृश्यों का विस्तार हो रहा है, वीडियो जनरेशन एआई सामग्री निर्माण, फिल्म निर्माण, विपणन और संचार में एक नई क्रांति को जन्म देगा। चीन के वीडियो जनरेशन एआई क्षेत्र के उच्चतम स्तर का प्रतिनिधित्व करने वाली ये कंपनियाँ न केवल चीनी बाजार का नेतृत्व कर रही हैं, बल्कि उनसे अंतरराष्ट्रीय दिग्गजों के साथ वैश्विक स्तर पर प्रतिस्पर्धा करने की भी उम्मीद है। इस बीच, तकनीकी नवाचार को बनाए रखते हुए उत्पाद स्थिरता और नियंत्रणीयता सुनिश्चित करना इन उद्यमों के लिए एक सतत चुनौती होगी।

स्रोत द्वारा यदि एक

अस्वीकरण: ऊपर दी गई जानकारी ifanr.com द्वारा प्रदान की गई है, जो Chovm.com से स्वतंत्र है। Chovm.com विक्रेता और उत्पादों की गुणवत्ता और विश्वसनीयता के बारे में कोई प्रतिनिधित्व और वारंटी नहीं देता है। Chovm.com सामग्री के कॉपीराइट से संबंधित उल्लंघनों के लिए किसी भी दायित्व को स्पष्ट रूप से अस्वीकार करता है।

टिप्पणी करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड इस तरह चिह्नित हैं *