الرئيسية » آخـر الأخبار » ابتكار فيديو الذكاء الاصطناعي: ثورة في رسم البطاقات دون استخدام اليدين
صورة الغلاف لتقنية الفيديو الذكاء الاصطناعي.

ابتكار فيديو الذكاء الاصطناعي: ثورة في رسم البطاقات دون استخدام اليدين

هل لم تكتف بمشاهدة فيلم "Squid Game"؟ ابتكر النهاية الخاصة بك.

صورة من لعبة الحبار
صورة متحركة لنهاية لعبة Squid Game المخصصة

هل لا تستطيع الانتظار لمشاهدة الجزء الثالث من فيلم "Dune"؟ اصنع نسختك الخاصة.

صورة من الكثيب
صورة GIF لمشهد الكثبان الرملية المخصص

في السابق، كان الحفاظ على مظهر الشخصيات ثابتًا يتطلب وقتًا طويلاً. الآن، من خلال لقطة شاشة فقط، يمكن للذكاء الاصطناعي البدء في صنع الأفلام.

يرجع الفضل في ذلك إلى ميزة "مرجع الموضوع" من Conch AI، والتي تعمل بواسطة طراز S2V-01 الجديد. فهي تحدد بدقة الموضوع في الصور التي يتم تحميلها وتحدده كشخصية في مقاطع الفيديو التي يتم إنشاؤها. والباقي بسيط: يمكنك إنشاءه بحرية باستخدام التعليمات الأساسية.

صورة GIF تظهر الاحتفاظ بمعلومات الوجه بدقة
تم إنشاء هذا التطبيق بواسطة المستخدم X @KarolineGeorges، مع الاحتفاظ بمعلومات الوجه بدقة
صورة GIF تعرض مواضيع متنوعة
تم إنشاء هذا التطبيق بواسطة المستخدم X @Apple_Dog_Sol، والذي يعرض مواضيع متنوعة

مزايا خاصية "مرجع الموضوع"

تعمل العديد من الشركات على تطوير ميزات "مرجع الموضوع"، ولكن ليست جميعها قادرة على معالجة تحديات الاستقرار والترابط، وخاصة الحفاظ على الاتساق في الحركة.

بينما قد يواجه الآخرون صعوبات، فإن Conch AI يتفوق. فباستخدام صورة واحدة فقط، يمكنه فهم سمات الشخصية بدقة، وتحديدها ككائنات، ووضعها في مشاهد مختلفة.

في لحظة نجد سبايدر مان ينقذ العالم، وفي اللحظة التالية نجده يركب دراجة نارية.

عنكبوت على شبكة الإنترنت

العنكبوت يتحرك على الشبكة

"أم التنانين"، التي من المفترض أن تقوم بتدريب التنانين في "صراع العروش"، تلعب الآن مع ذئب صغير.

أم التنانين مع الذئب
أم التنانين تلعب مع الذئب

إن الاختراق الذي تحقق في "الإحالة الموضوعية" يكمن في تحقيق التوازن بين الحرية الإبداعية والإخلاص. الأمر أشبه بمنح المبدعين "ممثلاً عالمياً" لا يتشوه مظهره بل يتغير بشكل طبيعي مع الأفعال والوضعيات، فيؤدي أي فعل في أي مشهد كما يطلب المخرج.

ليست مجرد ميزة جديدة، بل حل تقني فريد من نوعه

تظهر تجربة الاختبار الفعلية أن مرجع الموضوع هو وظيفة مختلفة، مع تحديات ومتطلبات تقنية مختلفة مقارنة بإنشاء النص إلى صورة أو صورة إلى صورة.

لا تعمل تقنية تحويل الصور إلى مقاطع فيديو التقليدية إلا على تحريك الصور الثابتة، مع إجراء تعديلات جزئية في الغالب. على سبيل المثال، في هذه الصورة الثابتة للممثلة سونغ هاي كيو، تعمل تقنية تحويل الصور إلى مقاطع فيديو على تحويل الصورة الثابتة إلى صورة ديناميكية ذات نطاق محدود ولا توجد بها حركات كبيرة.

الصورة الأصلية لسونغ هيه كيو
الصورة الأصلية
صورة متحركة لـSong Hye-kyo
فيديو تم إنشاؤه من صورة إلى فيديو

وباستخدام نفس الصورة، يمكن لـ "مرجع الموضوع" إنشاء جزء كامل استنادًا إلى مطالبات نصية، مما يسمح بحرية الحركة مع الحفاظ على ملامح الوجه الثابتة.

فيديو تم إنشاؤه لـSong Hye-kyo
إضاءة داخلية دافئة، وسط جمهور مسرحي، بطلة الرواية ترتدي بدلة سوداء، وتجلس في منتصف الصف الأيسر. تعبيرها مركز، تبتسم أحيانًا بخفة، وتصفق بشكل طبيعي ومتناغم. تبدأ الكاميرا من جانبها، وتلتقط صورًا ظلية لأعضاء الجمهور الآخرين وملمس المقاعد الخافت، مما يؤكد عمق البيئة. وبينما تتحرك الكاميرا، تقف بطلة الرواية.

هناك حاليًا طريقتان تقنيتان لإنشاء مقاطع فيديو تحتوي على موضوع ما. تعتمد الطريقة الأولى على تقنية LoRA، التي تعمل على ضبط النماذج التوليدية الكبيرة المدربة مسبقًا. تتطلب تقنية LoRA قدرًا كبيرًا من الحساب عند إنشاء مقاطع فيديو جديدة، مما يفرض على المستخدمين تحميل زوايا متعددة لنفس الموضوع، حتى تحديد عناصر مختلفة لكل مقطع لضمان الجودة. كما تستهلك هذه التقنية العديد من الرموز وتتطلب وقت انتظار طويلًا.

بعد استكشاف تقني مكثف، اختارت MiniMax مسارًا يعتمد على مرجع الصورة: تحتوي الصور على المعلومات المرئية الأكثر دقة، بما يتماشى مع المنطق الإبداعي للتصوير المادي. في هذا المسار، يكون بطل الرواية في الصورة هو الأولوية القصوى للنموذج للتعرف عليه - بغض النظر عن المشاهد أو الحبكة اللاحقة، يجب أن يظل الموضوع متسقًا.

إن المعلومات المرئية الأخرى أكثر انفتاحًا وتحكمًا من خلال مطالبات النص. ويحقق هذا النهج هدف "الاستنساخ الدقيق + الحرية العالية".

أم التنانين مع تنين
الشخصية تقف أمام تنين، والشعر واللباس يرفرف في مهب الريح.
في فسحة في الوادي، يقف البطل أمام تنين، وشعره الطويل يتدفق في مهب الريح. تبتعد الكاميرا تدريجيًا، فتلتقط البطل وهو يستدير لينظر إلى المسافة. تنتشر أجنحة التنين، فتتطاير شعر البطل وفستانه، وينتهي المشهد بلقطة من أعلى.

في هذا الفيديو، تم تقديم صورة واحدة فقط لملكة التنين للعارضة. وقد قدم الفيديو النهائي الذي تم إنشاؤه بدقة لغة الكاميرا والعناصر المرئية المذكورة في الطلب، مما يدل على فهم قوي.

وبالمقارنة بحل LoRA، فإن هذا النهج الفني يقلل بشكل كبير من كمية المواد التي يحتاج المستخدمون إلى تحميلها، وتحويل عشرات مقاطع الفيديو إلى صورة واحدة. ويتم قياس وقت الانتظار بالثواني، وهو ما يشبه الوقت الذي يستغرقه إنشاء نص أو صور - حيث يجمع بين دقة تحويل الصورة إلى فيديو وحرية تحويل النص إلى فيديو.

أبرز ما يميز التصنيع الصيني، تلبية احتياجاتك المتعددة

إن تعدد الاحتياجات ليس مطلبًا مفرطًا. فقط من خلال تحقيق صور دقيقة ومتسقة للشخصيات وحرية الحركة في نفس الوقت يمكن للنموذج أن يتجاوز الاستخدامات الترفيهية البسيطة وأن يكون له قيمة أوسع في تطبيقات الصناعة.

على سبيل المثال، في إعلانات المنتجات، يمكن لصورة نموذجية واحدة أن تولد بشكل مباشر مقاطع فيديو مختلفة للمنتج بمجرد تغيير الكلمات الموجهة.

عداء متحرك يعرض توليد فيديو ديناميكي.
فيديو منتج زجاجي يسلط الضوء على التوليد البصري التفصيلي.

إذا كنت تستخدم أساليب تحويل الصورة إلى فيديو، فإن الحل السائد حاليًا هو ضبط الإطارين الأول والأخير، مع تقييد التأثير بالصور الموجودة. كما يتطلب الأمر محاولات متكررة لجمع زوايا مختلفة ثم ربط المواد معًا لإكمال سلسلة من اللقطات.

إن الجمع بين خصائص التقنيات المختلفة لتتناسب بشكل أفضل مع سير عمل إنشاء الفيديو هو ميزة "المرجع الموضوعي". في المستقبل، سيستخدم أكثر من 80% من المتخصصين في التسويق أدوات توليدية في مراحل مختلفة، مع التركيز فقط على تصور القصة والحبكة، مما يحرر أيديهم.

وفقًا لـ Statista، تجاوز حجم سوق منتجات الذكاء الاصطناعي التوليدي في الإعلان والتسويق 15 مليار دولار في عام 2021. وبحلول عام 2028، سيصل هذا الرقم إلى 107.5 مليار دولار. في سير العمل السابقة، كان تحويل النص إلى فيديو فقط يحتوي على العديد من العوامل التي لا يمكن السيطرة عليها، وهي مناسبة للمراحل المبكرة من الإنشاء. في صناعات الإعلان والتسويق الأوروبية والأمريكية، أصبح الذكاء الاصطناعي التوليدي شائعًا جدًا بالفعل، مع 52٪ من حالات الاستخدام للمسودات والتخطيط، و48٪ للعصف الذهني.

في الوقت الحالي، يفتح Hailuo AI لأول مرة إمكانية الرجوع إلى شخصية واحدة. وفي المستقبل، سيتوسع ليشمل شخصيات وأشياء ومشاهد متعددة، مما يؤدي إلى إطلاق العنان للإبداع، كما يقترح شعار Hailuo، "كل فكرة هي نجاح باهر".

منذ أن أطلقت MiniMax نموذج الفيديو في أغسطس 2023، فقد جذب باستمرار عددًا كبيرًا من المستخدمين على المستوى الدولي، بدءًا من جودة وسلاسة الصور المُنشأة إلى الاتساق والاستقرار، حيث حصل على الكثير من التعليقات الإيجابية والتقدير المهني.

شعار هايلو AI
شعار تيكهالا.

في العام الماضي من المنافسة التكنولوجية، ظهرت المنافسة في مجال إنشاء الفيديو بالذكاء الاصطناعي لأول مرة. أظهر تنفيذ Sora إمكانات إنشاء الفيديو، مما دفع شركات التكنولوجيا الكبرى إلى الاستثمار بكثافة في هذا المجال.

ومع التأخير في إطلاق منتج Sora في نهاية عام 2024 وتقييمات المستخدمين المتوسطة، فقد فشل في تلبية توقعات السوق، مما أعطى لاعبين آخرين فرصة للاستيلاء على السوق.

الآن، مع دخول الفيديو التوليدي إلى النصف الثاني، هناك ثلاث شركات فقط أظهرت قوة تقنية وإمكانات تطوير حقيقية: شركة Hailuo AI من MiniMax، وشركة Keling AI من Kuaishou، وشركة Jimeng AI من ByteDance.

باعتبارها شركة ناشئة تأسست قبل ثلاث سنوات فقط، قدمت MiniMax منتجات وتقنيات يمكنها المنافسة على أعلى مستوى بحجمها الصغير. من نموذج I2V-01-Live لتحويل الصور إلى مقاطع فيديو في ديسمبر 2023 إلى نموذج S2V-01 الجديد، فقد نجحت في حل تحديات الجيل السابق من مقاطع الفيديو.

مع استمرار نضوج التكنولوجيا وتوسع سيناريوهات التطبيق، فإن الذكاء الاصطناعي لإنتاج الفيديو سيشعل ثورة جديدة في إنشاء المحتوى وإنتاج الأفلام والتسويق والاتصال. هذه الشركات، التي تمثل أعلى مستوى في مجال الذكاء الاصطناعي لإنتاج الفيديو في الصين، لا تقود السوق الصينية فحسب، بل من المتوقع أيضًا أن تنافس عالميًا مع عمالقة دوليين. وفي الوقت نفسه، فإن ضمان استقرار المنتج وإمكانية التحكم فيه مع الحفاظ على الابتكار التكنولوجي سيكون تحديًا مستمرًا لهذه الشركات.

مصدر من إيفان

إخلاء المسؤولية: يتم توفير المعلومات المذكورة أعلاه بواسطة ifanr.com، بشكل مستقل عن Chovm.com. لا تقدم Chovm.com أي تعهدات أو ضمانات فيما يتعلق بجودة وموثوقية البائع والمنتجات. ينكر موقع Chovm.com صراحةً أي مسؤولية عن الانتهاكات المتعلقة بحقوق الطبع والنشر للمحتوى.

اترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المشار إليها إلزامية *

انتقل إلى الأعلى