كيف برز مشروع الذكاء الاصطناعي لصانع أفلام غير محترف بين الأفلام القصيرة العادية؟
في فبراير 2023، أصبح جيم، المبرمج في صناعة الألعاب، فنانًا في مجال الذكاء الاصطناعي.
بحلول ديسمبر 2024، فاز فيلم جيم القصير المتحرك بالذكاء الاصطناعي "The Thin Man The Gun The Hotpot" بالجائزة الذهبية لأفضل فيلم رسوم متحركة قصير في حفل توزيع جوائز Independent Shorts Awards.
يعد هذا مهرجانًا دوليًا مهمًا للأفلام القصيرة في عالم السينما المستقلة، وليس مخصصًا لأعمال الذكاء الاصطناعي على وجه التحديد، مما يجعله إنجازًا كبيرًا لجيم. وقال: "من دواعي سروري أن يركز الحكام على القصة نفسها، متجاهلين تسمية الذكاء الاصطناعي".
تم إنجاز فيلم "الرجل النحيف، المسدس، القدر الساخن" في المقام الأول من قبل جيم وحده. يتكون الفيلم الذي تبلغ مدته 10 دقائق من 242 لقطة، واستغرق صنعه ما يقرب من ثلاثة أشهر، وتطلب ما لا يقل عن 200 ساعة من العمل، بمعدل أكثر من ساعتين يوميًا.
خلال عملية الإنشاء التي استغرقت 90 يومًا، شعر جيم وكأنه يخوض معركة ذكاء مع الذكاء الاصطناعي، حيث يحاول تجاوز حدوده وتجنب قيوده. وعندما لاحظ المشاهدون أن "الذكاء الاصطناعي بدأ في صنع الرسوم المتحركة"، رد جيم قائلاً: "المبدعون هم من يدفعون الذكاء الاصطناعي إلى صنع الرسوم المتحركة".
3 أشهر و10 دقائق
"الرجل النحيف والمسدس والوعاء الساخن" هو فيلم جريمة نوار، وهو نوع مهم في ماضي هوليوود، وتدور قصته حول الثقافة الصينية. يأتي مصطلح "الرجل النحيف والمسدس والوعاء الساخن" من جنوب غرب الصين، في إشارة إلى أكشاك الطعام الصغيرة المفتوحة في وقت متأخر من الليل.
البطل، شو شيا، هو شاب يأكل في أحد الأكشاك في الشارع في وقت متأخر من الليل. لدفع تكاليف العلاج الطبي لوالده، يتخذ خيارات غير أخلاقية لكنه يحافظ على خط أخلاقي لا يمكن المساس به. في النهاية، يتورط في العنف والقتل، ويحاصره القدر.
بدلاً من تسميتها "رسوم متحركة بالذكاء الاصطناعي"، فمن الأكثر دقة أن نقول إن "الرجل النحيف، المسدس، القدر الساخن" عبارة عن رسوم متحركة مصنوعة باستخدام أدوات الذكاء الاصطناعي.
تولدت الصور المرئية بواسطة الذكاء الاصطناعي، بينما تم تنفيذ عناصر أخرى مثل النص، والتحرير، والتمثيل الصوتي، والموسيقى، والمؤثرات الصوتية يدويًا. وتمت إضافة النص في الصور المرئية في مرحلة ما بعد الإنتاج.
من حيث المرئيات، يتبع جيم أسلوب "جيل الذكاء الاصطناعي الخالص". لا يحتوي فيلم "The Thin Man The Gun The Hotpot" على لقطات حية؛ فهو يعتمد على تحويل الصورة إلى فيديو. تم إنشاء الصور بواسطة Midjourney، ومقاطع الفيديو بواسطة Keling وPika وJidream وPixVerse وRunway.
إن جيل الذكاء الاصطناعي غير قابل للتنبؤ، ولكن سرد قصة متماسكة باستخدام الذكاء الاصطناعي يتطلب الاستقرار. ومن خلال تصميم الشخصية، فكر جيم في كيفية الحفاظ على اتساق الشخصية.
كان لدى جيم مبدأان لتصميم الشخصيات. أولاً، يجب أن يكون المظهر العام بسيطًا وقابلًا للوصف باستخدام بضع كلمات رئيسية. ثانيًا، يجب أن تحتوي الشخصيات على عناصر مميزة، حتى لو لم تكن متسقة تمامًا، تظل معروفة للجمهور.
الشخصيات الأكثر تمثيلاً هي الأخ وان ولي جياجيا. الأخ وان أصلع، يرتدي ملابس رياضية ونظارات شمسية؛ أما لي جياجيا فتشبه امرأة من التسعينيات، ترتدي اللون الأحمر وشعرها مموج.
السيد تشو الذي يبدو أنيقًا، يرتدي نظارة وبدلة بدون لحية، يفتقر إلى أي ملامح غير عادية، مما يجعله الشخصية الأكثر تكرارًا في أعمال جيم.
وجد جيم أن الذكاء الاصطناعي يولد بسهولة شخصيات ذات هالة "الأموال القديمة"، لكنه يواجه صعوبات مع شخصيات مثل السيد تشو، الذي هو ثري لكنه ليس من النخبة، وخطير لكنه ليس زعيم جريمة.
يصف جيم أسلوبه في الرسوم المتحركة بأنه "فيلم حي مع فلتر رسوم متحركة". ويمكن للمشاهدين أن يتخيلوا كيف سيبدو الأمر مع الممثلين الحقيقيين.
بمجرد إنشاء صورة كل شخصية من خلال النص، يصبح الأمر أشبه بصور أزياء الأفلام. ثم يستخدم جيم هذه الصور كمادة لإنشاء المزيد من الصور بزوايا ومشاهد مختلفة مع الحفاظ على الشخصيات دون تغيير.
باستخدام عدد كافٍ من الصور، يمكن إنشاء مقاطع فيديو. يتم تحديث أدوات الفيديو بالذكاء الاصطناعي بسرعة؛ تم استخدام إصدارات "The Thin Man The Gun The Hotpot" من أغسطس إلى سبتمبر 2024.
بالنسبة للقطات الصعبة من الناحية الفنية، جرب جيم أدوات فيديو مختلفة. كل أداة لها نقاط قوتها. كانت Jidream وKeling وPika هي الأدوات الأكثر استخدامًا.
في ذلك الوقت، برع Jidream في لقطات الحركة، وPika في لقطات المشاهد والرسوم المتحركة البسيطة، بينما كان لدى Keling قدرات قوية بشكل عام، على الرغم من أنها كانت معقدة بشكل غير ضروري في مواقف محددة في بعض الأحيان.
حتى مع الأدوات المتاحة اليوم، فإن العديد من المشاهد في فيلم "الرجل النحيف، المسدس، القدر الساخن" تشكل تحديًا يصعب تحقيقه بشكل طبيعي. وهذا يتطلب الاعتماد على الأساليب التقليدية.
على سبيل المثال، عندما لا تكون الشخصيات متجهة للأمام مباشرة أو في لقطات قريبة يمكن للذكاء الاصطناعي التعرف عليها بسهولة، وعندما تكون الأفعال والتعبيرات وزوايا الكاميرا متحركة، يجب على الممثل الصوتي أن يقوم بالدبلجة وفقًا لحركات الشفاه في الفيديو. يعتقد جيم أن الميزات الجديدة ليست مفيدة بالضرورة؛ فالأساليب القديمة، على الرغم من أنها ربما تكون خرقاء، أكثر موثوقية.
متخصصة ومتنوعة
تدور أحداث قصة "الرجل النحيف والمسدس والوعاء الساخن" في بلدة صغيرة في جنوب غرب الصين، حيث يتحدث الشخصيات بلهجة سيتشوان، وهي تفضيل شخصي لجيم. كما أن أسلوب الرسم في "الرجل النحيف والمسدس والوعاء الساخن" فريد من نوعه، حيث يقارنه المشاهدون بحلقة من "الحب والموت والروبوتات".
خلال عمله في صناعة الألعاب، رأى جيم الكثير من المحتوى المشابه والمجرب والمختبر.
إن الإبداع القائم على الذكاء الاصطناعي يمكن تخصيصه. ولا تزال الأعمال عالية الجودة تتطلب من الشركات الكبرى استثمار موارد كبيرة، لكن جيم يرى إمكانيات أكبر في خلق "عمل أساسي".
منذ بداية استخدام Midjourney، كان جيم واضحًا في أنه لا يريد إنشاء تصميمات بأسلوب "سائد". وباعتباره مستخدمًا كثيفًا لبرنامج Midjourney، فهو يدرك جيدًا الأنماط التي يمكن للذكاء الاصطناعي توليدها بسهولة، والتي تعد أيضًا مناطق محظورة بالنسبة له.
إنه يفضل الأنماط التي لا يمكن التعرف عليها فورًا، مع إحساس بالرجعية ولكن ليست رسوم متحركة قديمة الطراز تمامًا - مألوفة ولكنها جديدة.
بالنسبة لأسلوب الفن في "الرجل النحيف، المسدس، القدر الساخن"، أشار جيم إلى مخرج الرسوم المتحركة ماساكي يواسا وفنان المانجا يوشيهارو تسوجي.
لقد استخدم أولاً ميزة الوصف في Midjourney لفهم الكلمات الرئيسية لأنماطهم، ثم كتب باستمرار الإرشادات، وكرر ذلك مرارًا وتكرارًا لتوليد الصور التي تلبي متطلباته.
إن النظرة العالمية لـ "الرجل النحيف، البندقية، القدر الساخن" تنبع إلى حد كبير من المناطق والعناصر التي يعرفها جيم.
في عام 2019، شاهد جيم فيلم "بحيرة الأوز البري" للمخرج دياو يينان وبطولة هو جي، وأعجب بشدة بـ"أجواءه الواقعية مع جماليات وجوهر أفلام الجريمة". وأدرك أن أفلام النوع التقليدي ليست ثابتة، وأن هناك حيوية جديدة في السرد الصيني.
في عام 2021، بدأ جيم في كتابة السيناريو، وشكل الخطوط العريضة الأساسية لـ "الرجل النحيف، المسدس، القدر الساخن"، بما في ذلك بلدة صغيرة، وشاب يائس، ومأزق الحياة.
في عام 2023، بدأ جيم في استخدام Midjourney لتعلم فن مفهوم الذكاء الاصطناعي.
ومع ذلك، قبل عام 2024، لم يفكر جيم مطلقًا في صنع فيلم باستخدام الذكاء الاصطناعي. لقد تعلم بنفسه التصوير الفوتوغرافي وكتابة السيناريوهات والتصوير السينمائي، لكنه توقف عند هذا الحد. تحكي مقاطع الفيديو القصص من خلال العدسات، لكنه لم يتمكن من إنشاء لقطات خاصة به.
في أوائل عام 2024، بدأ جيم في استخدام بعض أقدم مقاطع الفيديو التي تم إنشاؤها باستخدام الذكاء الاصطناعي مثل Pika وأدرك فجأة أنه يمكنه أخيرًا تحريك المشاهد وضبط الصور وتعديلها وربطها لإكمال فيلم قصير. أصبحت رغبته في الإبداع قوية بشكل غير مسبوق.
وبعد تجهيز المواد، حان وقت التحرير والمؤثرات الصوتية والدبلجة والموسيقى. تعمق جيم في عملية إنتاج الأفلام التقليدية. فقام بالتجربة والتعلم، وقام تدريجيًا بتحميل بعض الأعمال المميزة والمميزة على بيليبيلي.
استوحى فيلم جيم القصير الآخر الذي يعتمد على الذكاء الاصطناعي، "Hard Bop Gunman"، من أسلوب القصص المصورة الأمريكية القديمة والأفلام الصامتة، وفاز لاحقًا بجائزة في المسار الإبداعي لمسابقة فيديو الذكاء الاصطناعي على منصات مثل 1905 Movie Network وBilibili.
لم يحدث الذكاء الاصطناعي أي تغيير في العديد من الصناعات بعد، ولكن بالنسبة للفرق الصغيرة والمبدعين الأفراد، أصبحت تكلفة الإبداع مقبولة، وأصبحت المحتويات المتنوعة لديها فرصة لمشاهدتها من قبل الجمهور.
يعترف جيم بأنه كان "متعمدًا" إلى حد ما في إعداده لرواية "الرجل النحيف، البندقية، القدر الساخن" في منطقة سيتشوان-تشونجتشينج. وهو يثبت أنه عند إنشاء محتوى متخصص، لم يعد هناك حاجة للقلق كثيرًا بشأن المفهوم التقليدي "المخاطرة المفرطة".
محدودة ولكنها فريدة من نوعها
قد لا يُعتبر مقطع فيديو مدته 10 دقائق بعنوان "الرجل النحيف والمسدس والوعاء الساخن" مقطع فيديو طويلاً على Bilibili. ولكن في مجتمع الذكاء الاصطناعي، تُعَد مدة 10 دقائق مدة نادرة، ناهيك عن أن مقطع "الرجل النحيف والمسدس والوعاء الساخن" يروي قصة كاملة.
لإكمال هذه الدقائق العشر، دفع جيم نفسه والذكاء الاصطناعي إلى أقصى حد.
لقد تطلبت مشاهد الأكشن في مطعم الهوت بوت في فيلم "الرجل النحيف، المسدس، الهوت بوت" الكثير من الجهد من جيم، مع تصميم كل لقطة، ولكن التأثير النهائي قدم أقل من 40%.
يعترف جيم بأن مشاهد الحركة التي يصورها الذكاء الاصطناعي تفتقر بالفعل إلى الإحساس بالتأثير ولا تتبع المنطق المادي، مثل الاصطدام بالهواء. ليس فقط مشاهد الحركة، ولكن أي لقطة بها حركة كبيرة، مثل الاختناق، أو رمي المطرقة، أو التحطيم بحجر، من الصعب على الذكاء الاصطناعي تحقيقها.
وفقًا لتجربة جيم، إذا كان عليك تصميم مشاهد أكشن للذكاء الاصطناعي، فتجنب الأسلحة الباردة واستخدم الأسلحة النارية بدلاً من ذلك، حيث يمكن للذكاء الاصطناعي على الأقل محاكاة إطلاق النار. وقد استخدم هو نفسه هذه التقنية، "بفضل أفلام هونج كونج القديمة التي ساعدت في الإنقاذ".
عندما يواجه الممثلون الحقيقيون صعوبة في أداء مشاهد الحركة، يمكن أن يتدخل البدلاء، لكن التعبيرات الوجهية المعبرة هي المهارة الأساسية للممثل. ومع ذلك، فهذه أيضًا نقطة ضعف للذكاء الاصطناعي، الذي إما يبالغ في التمثيل أو لا يظهر أي تعبير.
في أكتوبر 2024، أطلقت Runway ميزة Act-One، التي تدفع شخصيات الذكاء الاصطناعي إلى القيام بنفس التعبيرات بناءً على مقاطع فيديو أداء بشرية حقيقية. يرى جيم هذا كعلامة على أنه إذا أطلقت المزيد من المنتجات ميزات مماثلة، فهذا يشير إلى أن الذكاء الاصطناعي يعاني بالفعل من عنق زجاجة في الأداء.
في فيلم "الرجل النحيف والبندقية والوعاء الساخن"، تظهر الشخصيات غالبًا في لقطات قريبة ولقطات نصف الجسم، مما يعكس ضعف الذكاء الاصطناعي: التعامل مع اللقطات التي تضم أشخاصًا متعددين. عند تصميم اللقطات، يحاول جيم تجنب المشاهد التي تضم أشخاصًا متعددين لأنه لم يجد حلًا جيدًا بعد.
حتى عند إنشاء الصور باستخدام Midjourney، إذا كان هناك أكثر من شخصين، فقد تنشأ مشكلات في الوجه. وعند وضعها في تفاعلات الفيديو بالذكاء الاصطناعي، يصبح المشهد أكثر فوضوية.
إن الصور المرئية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي لها العديد من القيود، لذلك في مرحلة ما بعد الإنتاج، يستخدم جيم لقطات مقربة ولقطات رمزية وقطع سريعة للتعويض عن العيوب المرئية. الصور الحيوانية المتكررة في فيلم "الرجل النحيف والبندقية والوعاء الساخن" هي مثال على ذلك.
تُستخدم الاستعارات والرمزية أيضًا بشكل شائع في بعض أفلام الجريمة الأمريكية الكلاسيكية. في الأربعينيات والخمسينيات من القرن العشرين، وبسبب القيود التقنية واللوائح مثل قانون هايز الذي يقيد الصور العنيفة، كان الوضع مشابهًا إلى حد ما لمقاطع الفيديو التي تم تصويرها باستخدام الذكاء الاصطناعي في عام 1940.
يبدو صدى هذا عبر العقود مثيرًا للاهتمام بالنسبة لجيم، حيث يقول: "ربما تعمل الأساليب القديمة بشكل جيد في أفلام الذكاء الاصطناعي".
ومع ذلك، فإن الجمهور صادق، ويقدم ملاحظات مثل "عرض تقديمي سلس على PowerPoint" أو "رسوم متحركة ديناميكية معززة". يقبل جيم هذا، وهذا هو السبب في أنه اختار إنشاء رسوم متحركة بالذكاء الاصطناعي.
وبالمقارنة بأسلوب الحياة الواقعية السلس والمثير للخوف، فإن الرسوم المتحركة على الأقل "لا تجعل المشاهدين يفكرون على الفور، يا إلهي، هذا مزيف للغاية". فالحركات الجامدة والصلبة للشخصيات مقبولة أكثر في الرسوم المتحركة غير الواقعية.
إن عدم السعي الأعمى وراء الطول وضمان الجودة أولاً يرجع جزئيًا إلى أن جيم يقارن بين الأفلام العادية. لقد دخل في مسابقة الأفلام القصيرة المستقلة غير المعتمدة على الذكاء الاصطناعي ليجعل الحكام يتجاهلون تسمية الذكاء الاصطناعي ويركزون على القصة نفسها.
ويأمل جيم أنه عند مشاهدة أعماله، يمكن للجمهور أن يدرك وجود الذكاء الاصطناعي ولكن لا يأتي من أجل الذكاء الاصطناعي، ولا يظهر التساهل في نظام تقييم أفلام الذكاء الاصطناعي، "مجتمع الذكاء الاصطناعي ودود للغاية، ومن الضروري سماع بعض الكلمات القاسية".
الاستمرار في الخلق للتغلب على القلق
غالبًا ما تكتب أخبار الذكاء الاصطناعي عن "التغييرات التي تحدث بين عشية وضحاها"، وإنشاء فيلم قصير في ثلاثة أشهر يعد وقتًا طويلاً بالفعل.
يتطور الذكاء الاصطناعي بشكل يومي. في عام 2023، كان جيم قادرًا على مواكبة المعلومات اليومية للذكاء الاصطناعي، ولكن منذ أوائل عام 2024، أصبح من المستحيل مواكبة الاتجاهات. كما يشعر بالقلق، ولكن ليس بشكل أعمى، مثل العديد من الآخرين.
إن التكنولوجيا قوية، ولكن لا يزال هناك الكثير من العمل الذي يتعين على البشر القيام به. وتكمن الصعوبة والاهتمام بالإبداع في حقيقة مفادها أن بعض المشاكل يجب أن يحلها المبدعون أنفسهم.
في فيلم "بحيرة الأوز البرية"، هناك مشهد تبادل إطلاق نار ترك انطباعًا عميقًا على جيم: الناس يرقصون في ساحة، ورجال شرطة بملابس مدنية يرتدون أحذية متوهجة، ومجرمون يطلقون النار، ورجال الشرطة يطاردون بالدم المتوهج، ثم يطلقون النار أيضًا.
لقد حرك هذا التناقض المتوتر والمرح جيم. وبدون هذا المشهد، فإن أول رد فعل على الرقص المربع سيكون "مبتذلاً".
ويعتقد أن العناصر المألوفة في كثير من الأحيان ليست قديمة ولكنها تفتقر إلى الاستكشاف العميق من قبل المبدعين.
وعلى العكس من ذلك، فإن الأشياء التي تم التعبير عنها بعناية باستخدام الأدوات القديمة قد لا يتم استبدالها بتكنولوجيا جديدة.
لقد تم تحديث مقاطع الفيديو الخاصة بالذكاء الاصطناعي عدة مرات، لكن جيم لا يخطط لإعادة إنتاج مقاطع الفيديو القصيرة السابقة الخاصة بالذكاء الاصطناعي.
كان تصميم الفيلم القصير بأكمله والتنازلات التي تم التوصل إليها مبنية على القيود التي فرضها الذكاء الاصطناعي في ذلك الوقت، مما أدى إلى تشكيل كيان كامل. وحتى بعد مرور سنوات، لا تزال هناك جوانب ممتعة، وهنا تكمن قيمة العمل.
يمكن للذكاء الاصطناعي أن يساعد جيم في إتمام المزيد من التجارب المشابهة، وإعادة التفكير في أشياء مثيرة للاهتمام. فهو لا يحب أن يقدم الذكاء الاصطناعي إجابات مباشرة؛ بل يفضل حل المشكلات بنفسه، باستخدام الذكاء الاصطناعي كأداة تشبه الآلة الحاسبة.
مقارنة باستخدام الذكاء الاصطناعي لإنتاج الإعلانات التجارية أو مقاطع الفيديو الموسيقية، لا يزال جيم يفضل استخدام الذكاء الاصطناعي لسرد القصص. بالنسبة له، "السرد هو الهدف الأصلي من إنشاء الفيلم".
قبل بضع سنوات، عندما كان جيم يتعلم كتابة السيناريوهات بنفسه، لم يكن يقرأ الكتب فحسب، بل كان يتدرب أيضًا على كتابة السيناريوهات واستكمالها، "إذا لم تكملها، فهذا لا يعني الكثير".
وفي الوقت نفسه، كان يشاهد العديد من الأفلام، ويتابع باستمرار أفلامًا جديدة، وينظم لقطات مثيرة للاهتمام، ويتابع تفسيرات وتحليلات الآخرين. ويقول إنه "ليس لديه أساس متين"، لكنه حساس للصور، وجيد في ربط الأشياء المتشابهة، وأفضل في استخدام لغة الكاميرا لنقل المشاعر والعواطف بدقة.
الآن، يأخذ جيم استراحة، ويخطط لمشاركة إبداعات الذكاء الاصطناعي، وإعداد مشروع الذكاء الاصطناعي التالي، ومواكبة أحدث التطورات في كل أداة فيديو للذكاء الاصطناعي. وفي رأيه، بغض النظر عن عدد أدوات الذكاء الاصطناعي، فإن الموارد التي يمكن لكل شخص استثمارها متساوية ولا غنى عنها. الكمية لا تهم؛ العثور على المسار الصحيح للذات هو الأهم.
في قسم التعليقات على موقع Bilibili الذي نشره جيم، وصف أحد المشاهدين تجربة المشاهدة بأنها "أدوات بلا روح، إبداع روحي". فأجاب: "هذا التصريح يحمل قدرًا كبيرًا من الأهمية".
إن أفضل طريقة لمكافحة القلق هي الإبداع. لا يريد جيم التكهن بما يمكن للذكاء الاصطناعي أن يفعله في المستقبل أو من سيحل محله. يفضل الاعتقاد بأن الإبداع المستمر لأعمال جديدة بين يديه هو حصن الإنسان المتين.
مصدر من إيفان
إخلاء المسؤولية: يتم توفير المعلومات المذكورة أعلاه بواسطة ifanr.com، بشكل مستقل عن Chovm.com. لا تقدم Chovm.com أي تعهدات أو ضمانات فيما يتعلق بجودة وموثوقية البائع والمنتجات. ينكر موقع Chovm.com صراحةً أي مسؤولية عن الانتهاكات المتعلقة بحقوق الطبع والنشر للمحتوى.