“स्क्विड गेम” देखने के बाद संतुष्ट नहीं हैं? अपना खुद का अंत बनाएँ।


क्या आप "ड्यून पार्ट थ्री" का इंतज़ार नहीं कर सकते? अपना खुद का संस्करण बनाएँ।

पहले, चरित्र की एकरूपता बनाए रखने के लिए काफी समय की आवश्यकता होती थी। अब, केवल एक स्क्रीनशॉट के साथ, AI मूवी बनाना शुरू कर सकता है।
यह नए S2V-01 मॉडल द्वारा संचालित Conch AI के "विषय संदर्भ" सुविधा के लिए धन्यवाद है। यह अपलोड की गई छवियों में विषय को सटीक रूप से पहचानता है और इसे उत्पन्न वीडियो में चरित्र के रूप में सेट करता है। बाकी सरल है: बुनियादी निर्देशों के साथ स्वतंत्र रूप से बनाएँ।


“विषय संदर्भ” सुविधा के लाभ
कई कंपनियां "विषय संदर्भ" सुविधाएं विकसित कर रही हैं, लेकिन सभी स्थिरता और सुसंगति की चुनौतियों का सामना नहीं कर सकती हैं, विशेष रूप से गति में निरंतरता बनाए रखना।
जबकि अन्य को संघर्ष करना पड़ सकता है, कोंच एआई उत्कृष्ट है। केवल एक छवि के साथ, यह चरित्र लक्षणों को सटीक रूप से समझता है, उन्हें विषयों के रूप में पहचानता है, और उन्हें विभिन्न दृश्यों में रखता है।
एक पल स्पाइडर-मैन दुनिया को बचा रहा है, अगले ही पल वह मोटरसाइकिल चला रहा है।


ड्रेगन की माँ, जिसे "गेम ऑफ थ्रोन्स" में ड्रेगन को प्रशिक्षित करना चाहिए, अब एक छोटे भेड़िये के साथ खेल रही है।


"विषय संदर्भ" में सफलता रचनात्मक स्वतंत्रता और निष्ठा के बीच संतुलन हासिल करने में निहित है। यह रचनाकारों को एक "सार्वभौमिक अभिनेता" देने जैसा है, जिसका स्वरूप विकृत नहीं होता बल्कि स्वाभाविक रूप से क्रियाओं और मुद्राओं के साथ बदलता है, जो निर्देशक द्वारा अपेक्षित किसी भी दृश्य में कोई भी क्रिया करता है।
न केवल एक नई सुविधा, बल्कि एक अद्वितीय तकनीकी समाधान
वास्तविक परीक्षण अनुभव से पता चलता है कि विषय संदर्भ एक अलग कार्य है, जिसमें टेक्स्ट-टू-इमेज या इमेज-टू-इमेज निर्माण की तुलना में भिन्न तकनीकी चुनौतियां और आवश्यकताएं होती हैं।
पारंपरिक छवि-से-वीडियो पीढ़ी केवल स्थिर छवियों को एनिमेट करती है, मुख्य रूप से आंशिक संशोधनों के साथ। उदाहरण के लिए, सॉन्ग हये-क्यो की इस तस्वीर में, छवि-से-वीडियो केवल स्थिर छवि को सीमित सीमा और बिना किसी महत्वपूर्ण हलचल के गतिशील छवि में बदल देता है।


एक ही फोटो के साथ, "विषय संदर्भ" पाठ संकेतों के आधार पर एक पूर्ण खंड बना सकता है, जिससे चेहरे की स्थिर विशेषताओं को बनाए रखते हुए मुक्त गति की अनुमति मिलती है।

वर्तमान में किसी विषय के साथ वीडियो बनाने के लिए दो तकनीकी मार्ग हैं। एक LoRA तकनीक पर आधारित है, जो पहले से प्रशिक्षित बड़े जनरेटिव मॉडल को ठीक करता है। नए वीडियो बनाते समय LoRA को महत्वपूर्ण गणना की आवश्यकता होती है, जिससे उपयोगकर्ताओं को एक ही विषय के कई कोण अपलोड करने पड़ते हैं, यहाँ तक कि गुणवत्ता सुनिश्चित करने के लिए प्रत्येक खंड के लिए अलग-अलग तत्व निर्दिष्ट करने पड़ते हैं। इसमें कई टोकन भी खर्च होते हैं और लंबे समय तक प्रतीक्षा करने की आवश्यकता होती है।
व्यापक तकनीकी अन्वेषण के बाद, मिनीमैक्स ने छवि संदर्भ के आधार पर एक मार्ग चुना: छवियों में सबसे सटीक दृश्य जानकारी होती है, जो भौतिक शूटिंग के रचनात्मक तर्क के साथ संरेखित होती है। इस मार्ग में, छवि में नायक पहचान के लिए मॉडल की सर्वोच्च प्राथमिकता है - बाद के दृश्यों या कथानक की परवाह किए बिना, विषय को सुसंगत रहना चाहिए।
अन्य दृश्य जानकारी पाठ संकेतों द्वारा अधिक खुली और नियंत्रित होती है। यह दृष्टिकोण "सटीक पुनरुत्पादन + उच्च स्वतंत्रता" के लक्ष्य को प्राप्त करता है।


इस वीडियो में मॉडल को ड्रैगन क्वीन की सिर्फ़ एक तस्वीर दी गई थी। अंतिम रूप से तैयार किए गए वीडियो में प्रॉम्प्ट में बताए गए कैमरा लैंग्वेज और विज़ुअल तत्वों को सटीक रूप से प्रस्तुत किया गया, जिससे एक मज़बूत समझ का प्रदर्शन हुआ।
LoRA समाधान की तुलना में, यह तकनीकी दृष्टिकोण उपयोगकर्ताओं को अपलोड करने के लिए आवश्यक सामग्री की मात्रा को काफी कम कर देता है, दर्जनों वीडियो खंडों को एक ही छवि में बदल देता है। प्रतीक्षा समय सेकंड में मापा जाता है, जो टेक्स्ट या छवियों को बनाने में लगने वाले समय के समान लगता है - छवि-से-वीडियो की सटीकता को टेक्स्ट-से-वीडियो की स्वतंत्रता के साथ जोड़ता है।
चीनी विनिर्माण की मुख्य विशेषताएं, आपकी विविध आवश्यकताओं की पूर्ति
कई ज़रूरतें अत्यधिक मांग नहीं हैं। केवल एक साथ सटीक और सुसंगत चरित्र छवियों और मुक्त आंदोलन को प्राप्त करके ही मॉडल सरल मनोरंजन उपयोगों को पार कर सकता है और उद्योग अनुप्रयोगों में व्यापक मूल्य प्राप्त कर सकता है।
उदाहरण के लिए, उत्पाद विज्ञापनों में, एक एकल मॉडल छवि केवल संकेत शब्दों को बदलकर सीधे विभिन्न उत्पाद वीडियो उत्पन्न कर सकती है।


यदि इमेज-टू-वीडियो विधियों का उपयोग किया जाता है, तो वर्तमान मुख्यधारा समाधान पहले और अंतिम फ़्रेम को सेट करना है, जिसका प्रभाव मौजूदा छवियों द्वारा सीमित है। इसके लिए अलग-अलग कोणों को इकट्ठा करने और फिर शॉट्स के अनुक्रम को पूरा करने के लिए सामग्रियों को एक साथ जोड़ने के लिए बार-बार प्रयास करने की भी आवश्यकता होती है।
वीडियो निर्माण कार्यप्रवाह को बेहतर ढंग से फिट करने के लिए विभिन्न तकनीकों की विशेषताओं को संयोजित करना "विषय संदर्भ" का लाभ है। भविष्य में, 80% से अधिक मार्केटिंग पेशेवर विभिन्न चरणों में जनरेटिव टूल का उपयोग करेंगे, केवल कहानी और कथानक की अवधारणा पर ध्यान केंद्रित करेंगे, जिससे उनके हाथ खाली रहेंगे।
स्टैटिस्टा के अनुसार, विज्ञापन और मार्केटिंग में जनरेटिव एआई उत्पादों का बाजार आकार 15 में $2021 बिलियन से अधिक हो गया। 2028 तक, यह संख्या $107.5 बिलियन तक पहुँच जाएगी। पिछले वर्कफ़्लो में, शुद्ध टेक्स्ट-टू-वीडियो में बहुत सारे अनियंत्रित कारक थे, जो निर्माण के शुरुआती चरणों के लिए उपयुक्त थे। यूरोपीय और अमेरिकी विज्ञापन और विपणन उद्योगों में, जनरेटिव AI पहले से ही बहुत आम है, जिसमें ड्राफ्ट और प्लानिंग के लिए 52% उपयोग के मामले और विचार-मंथन के लिए 48% मामले हैं।
वर्तमान में, Hailuo AI सबसे पहले एक ही चरित्र के लिए संदर्भ क्षमता खोलता है। भविष्य में, यह कई पात्रों, वस्तुओं, दृश्यों और बहुत कुछ तक विस्तारित होगा, रचनात्मकता को और अधिक उन्मुक्त करेगा, जैसा कि Hailuo के नारे में प्रस्तावित है, "हर विचार एक ब्लॉकबस्टर है।"
चूंकि मिनीमैक्स ने अगस्त 2023 में वीडियो मॉडल जारी किया था, तब से इसने लगातार अंतरराष्ट्रीय स्तर पर बड़ी संख्या में उपयोगकर्ताओं को आकर्षित किया है, उत्पन्न छवियों की गुणवत्ता और चिकनाई से लेकर स्थिरता और स्थिरता तक, बहुत सारी सकारात्मक प्रतिक्रिया और पेशेवर मान्यता प्राप्त की है।


तकनीकी प्रतिस्पर्धा के पिछले वर्ष में, एआई वीडियो निर्माण क्षेत्र का प्रतिस्पर्धी परिदृश्य शुरू में उभरा है। सोरा के कार्यान्वयन ने वीडियो निर्माण की क्षमता को दिखाया, जिससे प्रमुख तकनीकी कंपनियों को इस क्षेत्र में भारी निवेश करने के लिए प्रेरित किया गया।
2024 के अंत में सोरा के उत्पाद के विलंबित लॉन्च और औसत उपयोगकर्ता समीक्षाओं के साथ, यह बाजार की अपेक्षाओं को पूरा करने में विफल रहा, जिससे अन्य खिलाड़ियों को बाजार पर कब्जा करने का मौका मिल गया।
अब, जबकि जनरेटिव वीडियो दूसरी छमाही में प्रवेश कर रहा है, केवल तीन कंपनियां ही सही मायने में तकनीकी ताकत और विकास क्षमता का प्रदर्शन कर रही हैं: मिनीमैक्स की हैलुओ एआई, कुआइशौ की केलिंग एआई, और बाइटडांस की जिमेंग एआई।
महज तीन साल पहले स्थापित एक स्टार्टअप के रूप में, मिनीमैक्स ने ऐसे उत्पाद और तकनीकें लाई हैं जो अपने छोटे स्टार्टअप आकार के साथ शीर्ष स्तर पर प्रतिस्पर्धा कर सकती हैं। दिसंबर 2 में I01V-2023-लाइव इमेज-टू-वीडियो मॉडल से लेकर नए S2V-01 मॉडल तक, वे पिछली वीडियो पीढ़ी की चुनौतियों का समाधान कर रहे हैं।
जैसे-जैसे तकनीक परिपक्व होती जा रही है और अनुप्रयोग परिदृश्यों का विस्तार हो रहा है, वीडियो जनरेशन एआई सामग्री निर्माण, फिल्म निर्माण, विपणन और संचार में एक नई क्रांति को जन्म देगा। चीन के वीडियो जनरेशन एआई क्षेत्र के उच्चतम स्तर का प्रतिनिधित्व करने वाली ये कंपनियाँ न केवल चीनी बाजार का नेतृत्व कर रही हैं, बल्कि उनसे अंतरराष्ट्रीय दिग्गजों के साथ वैश्विक स्तर पर प्रतिस्पर्धा करने की भी उम्मीद है। इस बीच, तकनीकी नवाचार को बनाए रखते हुए उत्पाद स्थिरता और नियंत्रणीयता सुनिश्चित करना इन उद्यमों के लिए एक सतत चुनौती होगी।
स्रोत द्वारा यदि एक
अस्वीकरण: ऊपर दी गई जानकारी ifanr.com द्वारा प्रदान की गई है, जो Chovm.com से स्वतंत्र है। Chovm.com विक्रेता और उत्पादों की गुणवत्ता और विश्वसनीयता के बारे में कोई प्रतिनिधित्व और वारंटी नहीं देता है। Chovm.com सामग्री के कॉपीराइट से संबंधित उल्लंघनों के लिए किसी भी दायित्व को स्पष्ट रूप से अस्वीकार करता है।