هل لم تكتف بمشاهدة فيلم "Squid Game"؟ ابتكر النهاية الخاصة بك.
هل لا تستطيع الانتظار لمشاهدة الجزء الثالث من فيلم "Dune"؟ اصنع نسختك الخاصة.
في السابق، كان الحفاظ على مظهر الشخصيات ثابتًا يتطلب وقتًا طويلاً. الآن، من خلال لقطة شاشة فقط، يمكن للذكاء الاصطناعي البدء في صنع الأفلام.
يرجع الفضل في ذلك إلى ميزة "مرجع الموضوع" من Conch AI، والتي تعمل بواسطة طراز S2V-01 الجديد. فهي تحدد بدقة الموضوع في الصور التي يتم تحميلها وتحدده كشخصية في مقاطع الفيديو التي يتم إنشاؤها. والباقي بسيط: يمكنك إنشاءه بحرية باستخدام التعليمات الأساسية.
مزايا خاصية "مرجع الموضوع"
تعمل العديد من الشركات على تطوير ميزات "مرجع الموضوع"، ولكن ليست جميعها قادرة على معالجة تحديات الاستقرار والترابط، وخاصة الحفاظ على الاتساق في الحركة.
بينما قد يواجه الآخرون صعوبات، فإن Conch AI يتفوق. فباستخدام صورة واحدة فقط، يمكنه فهم سمات الشخصية بدقة، وتحديدها ككائنات، ووضعها في مشاهد مختلفة.
في لحظة نجد سبايدر مان ينقذ العالم، وفي اللحظة التالية نجده يركب دراجة نارية.
"أم التنانين"، التي من المفترض أن تقوم بتدريب التنانين في "صراع العروش"، تلعب الآن مع ذئب صغير.
إن الاختراق الذي تحقق في "الإحالة الموضوعية" يكمن في تحقيق التوازن بين الحرية الإبداعية والإخلاص. الأمر أشبه بمنح المبدعين "ممثلاً عالمياً" لا يتشوه مظهره بل يتغير بشكل طبيعي مع الأفعال والوضعيات، فيؤدي أي فعل في أي مشهد كما يطلب المخرج.
ليست مجرد ميزة جديدة، بل حل تقني فريد من نوعه
تظهر تجربة الاختبار الفعلية أن مرجع الموضوع هو وظيفة مختلفة، مع تحديات ومتطلبات تقنية مختلفة مقارنة بإنشاء النص إلى صورة أو صورة إلى صورة.
لا تعمل تقنية تحويل الصور إلى مقاطع فيديو التقليدية إلا على تحريك الصور الثابتة، مع إجراء تعديلات جزئية في الغالب. على سبيل المثال، في هذه الصورة الثابتة للممثلة سونغ هاي كيو، تعمل تقنية تحويل الصور إلى مقاطع فيديو على تحويل الصورة الثابتة إلى صورة ديناميكية ذات نطاق محدود ولا توجد بها حركات كبيرة.
وباستخدام نفس الصورة، يمكن لـ "مرجع الموضوع" إنشاء جزء كامل استنادًا إلى مطالبات نصية، مما يسمح بحرية الحركة مع الحفاظ على ملامح الوجه الثابتة.
هناك حاليًا طريقتان تقنيتان لإنشاء مقاطع فيديو تحتوي على موضوع ما. تعتمد الطريقة الأولى على تقنية LoRA، التي تعمل على ضبط النماذج التوليدية الكبيرة المدربة مسبقًا. تتطلب تقنية LoRA قدرًا كبيرًا من الحساب عند إنشاء مقاطع فيديو جديدة، مما يفرض على المستخدمين تحميل زوايا متعددة لنفس الموضوع، حتى تحديد عناصر مختلفة لكل مقطع لضمان الجودة. كما تستهلك هذه التقنية العديد من الرموز وتتطلب وقت انتظار طويلًا.
بعد استكشاف تقني مكثف، اختارت MiniMax مسارًا يعتمد على مرجع الصورة: تحتوي الصور على المعلومات المرئية الأكثر دقة، بما يتماشى مع المنطق الإبداعي للتصوير المادي. في هذا المسار، يكون بطل الرواية في الصورة هو الأولوية القصوى للنموذج للتعرف عليه - بغض النظر عن المشاهد أو الحبكة اللاحقة، يجب أن يظل الموضوع متسقًا.
إن المعلومات المرئية الأخرى أكثر انفتاحًا وتحكمًا من خلال مطالبات النص. ويحقق هذا النهج هدف "الاستنساخ الدقيق + الحرية العالية".
في هذا الفيديو، تم تقديم صورة واحدة فقط لملكة التنين للعارضة. وقد قدم الفيديو النهائي الذي تم إنشاؤه بدقة لغة الكاميرا والعناصر المرئية المذكورة في الطلب، مما يدل على فهم قوي.
وبالمقارنة بحل LoRA، فإن هذا النهج الفني يقلل بشكل كبير من كمية المواد التي يحتاج المستخدمون إلى تحميلها، وتحويل عشرات مقاطع الفيديو إلى صورة واحدة. ويتم قياس وقت الانتظار بالثواني، وهو ما يشبه الوقت الذي يستغرقه إنشاء نص أو صور - حيث يجمع بين دقة تحويل الصورة إلى فيديو وحرية تحويل النص إلى فيديو.
أبرز ما يميز التصنيع الصيني، تلبية احتياجاتك المتعددة
إن تعدد الاحتياجات ليس مطلبًا مفرطًا. فقط من خلال تحقيق صور دقيقة ومتسقة للشخصيات وحرية الحركة في نفس الوقت يمكن للنموذج أن يتجاوز الاستخدامات الترفيهية البسيطة وأن يكون له قيمة أوسع في تطبيقات الصناعة.
على سبيل المثال، في إعلانات المنتجات، يمكن لصورة نموذجية واحدة أن تولد بشكل مباشر مقاطع فيديو مختلفة للمنتج بمجرد تغيير الكلمات الموجهة.
إذا كنت تستخدم أساليب تحويل الصورة إلى فيديو، فإن الحل السائد حاليًا هو ضبط الإطارين الأول والأخير، مع تقييد التأثير بالصور الموجودة. كما يتطلب الأمر محاولات متكررة لجمع زوايا مختلفة ثم ربط المواد معًا لإكمال سلسلة من اللقطات.
إن الجمع بين خصائص التقنيات المختلفة لتتناسب بشكل أفضل مع سير عمل إنشاء الفيديو هو ميزة "المرجع الموضوعي". في المستقبل، سيستخدم أكثر من 80% من المتخصصين في التسويق أدوات توليدية في مراحل مختلفة، مع التركيز فقط على تصور القصة والحبكة، مما يحرر أيديهم.
وفقًا لـ Statista، تجاوز حجم سوق منتجات الذكاء الاصطناعي التوليدي في الإعلان والتسويق 15 مليار دولار في عام 2021. وبحلول عام 2028، سيصل هذا الرقم إلى 107.5 مليار دولار. في سير العمل السابقة، كان تحويل النص إلى فيديو فقط يحتوي على العديد من العوامل التي لا يمكن السيطرة عليها، وهي مناسبة للمراحل المبكرة من الإنشاء. في صناعات الإعلان والتسويق الأوروبية والأمريكية، أصبح الذكاء الاصطناعي التوليدي شائعًا جدًا بالفعل، مع 52٪ من حالات الاستخدام للمسودات والتخطيط، و48٪ للعصف الذهني.
في الوقت الحالي، يفتح Hailuo AI لأول مرة إمكانية الرجوع إلى شخصية واحدة. وفي المستقبل، سيتوسع ليشمل شخصيات وأشياء ومشاهد متعددة، مما يؤدي إلى إطلاق العنان للإبداع، كما يقترح شعار Hailuo، "كل فكرة هي نجاح باهر".
منذ أن أطلقت MiniMax نموذج الفيديو في أغسطس 2023، فقد جذب باستمرار عددًا كبيرًا من المستخدمين على المستوى الدولي، بدءًا من جودة وسلاسة الصور المُنشأة إلى الاتساق والاستقرار، حيث حصل على الكثير من التعليقات الإيجابية والتقدير المهني.
في العام الماضي من المنافسة التكنولوجية، ظهرت المنافسة في مجال إنشاء الفيديو بالذكاء الاصطناعي لأول مرة. أظهر تنفيذ Sora إمكانات إنشاء الفيديو، مما دفع شركات التكنولوجيا الكبرى إلى الاستثمار بكثافة في هذا المجال.
ومع التأخير في إطلاق منتج Sora في نهاية عام 2024 وتقييمات المستخدمين المتوسطة، فقد فشل في تلبية توقعات السوق، مما أعطى لاعبين آخرين فرصة للاستيلاء على السوق.
الآن، مع دخول الفيديو التوليدي إلى النصف الثاني، هناك ثلاث شركات فقط أظهرت قوة تقنية وإمكانات تطوير حقيقية: شركة Hailuo AI من MiniMax، وشركة Keling AI من Kuaishou، وشركة Jimeng AI من ByteDance.
باعتبارها شركة ناشئة تأسست قبل ثلاث سنوات فقط، قدمت MiniMax منتجات وتقنيات يمكنها المنافسة على أعلى مستوى بحجمها الصغير. من نموذج I2V-01-Live لتحويل الصور إلى مقاطع فيديو في ديسمبر 2023 إلى نموذج S2V-01 الجديد، فقد نجحت في حل تحديات الجيل السابق من مقاطع الفيديو.
مع استمرار نضوج التكنولوجيا وتوسع سيناريوهات التطبيق، فإن الذكاء الاصطناعي لإنتاج الفيديو سيشعل ثورة جديدة في إنشاء المحتوى وإنتاج الأفلام والتسويق والاتصال. هذه الشركات، التي تمثل أعلى مستوى في مجال الذكاء الاصطناعي لإنتاج الفيديو في الصين، لا تقود السوق الصينية فحسب، بل من المتوقع أيضًا أن تنافس عالميًا مع عمالقة دوليين. وفي الوقت نفسه، فإن ضمان استقرار المنتج وإمكانية التحكم فيه مع الحفاظ على الابتكار التكنولوجي سيكون تحديًا مستمرًا لهذه الشركات.
مصدر من إيفان
إخلاء المسؤولية: يتم توفير المعلومات المذكورة أعلاه بواسطة ifanr.com، بشكل مستقل عن Chovm.com. لا تقدم Chovm.com أي تعهدات أو ضمانات فيما يتعلق بجودة وموثوقية البائع والمنتجات. ينكر موقع Chovm.com صراحةً أي مسؤولية عن الانتهاكات المتعلقة بحقوق الطبع والنشر للمحتوى.