پس از تماشای «بازی ماهی مرکب» راضی نیستید؟ پایان خود را بسازید


آیا نمی توانید برای "Dune Part Three" صبر کنید؟ نسخه خود را بسازید.

پیش از این، حفظ ظاهر یک شخصیت مستلزم زمان قابل توجهی بود. اکنون، تنها با یک اسکرین شات، هوش مصنوعی می تواند شروع به ساخت فیلم کند.
این به لطف ویژگی Conch AI "Subject Reference" است که توسط مدل جدید S2V-01 ارائه شده است. این به طور دقیق موضوع را در تصاویر آپلود شده شناسایی می کند و آن را به عنوان شخصیت در فیلم های تولید شده تنظیم می کند. بقیه ساده است: آزادانه با دستورالعمل های اساسی ایجاد کنید.


مزایای ویژگی "مرجع موضوع".
بسیاری از شرکتها در حال توسعه ویژگیهای «مرجع موضوع» هستند، اما همه نمیتوانند با چالشهای ثبات و انسجام، به ویژه حفظ ثبات در حرکت مقابله کنند.
در حالی که دیگران ممکن است مشکل داشته باشند، هوش مصنوعی Conch برتر است. تنها با یک تصویر، ویژگی های شخصیت را به دقت درک می کند، آنها را به عنوان سوژه شناسایی می کند و آنها را در صحنه های مختلف قرار می دهد.
یک لحظه مرد عنکبوتی دارد دنیا را نجات می دهد و لحظه ای دیگر سوار موتورسیکلت می شود.


مادر اژدها که باید در «بازی تاج و تخت» اژدها تربیت کند، اکنون با یک گرگ کوچک بازی میکند.


پیشرفت در "ارجاع موضوع" در دستیابی به تعادل بین آزادی خلاق و وفاداری است. مثل این است که به سازندگان یک «بازیگر جهانی» بدهیم که ظاهرش تحریف نمیشود، اما طبیعتاً با کنشها و ژستها تغییر میکند، و هر عملی را در هر صحنهای که کارگردان میخواهد انجام میدهد.
نه فقط یک ویژگی جدید، بلکه یک راه حل فنی منحصر به فرد
تجربه واقعی آزمون نشان میدهد که مرجع موضوع عملکرد متفاوتی است، با چالشها و الزامات فنی متفاوت در مقایسه با تولید متن به تصویر یا تصویر به تصویر.
تولید سنتی تصویر به ویدیو فقط تصاویر ثابت را متحرک می کند، عمدتاً با تغییرات جزئی. به عنوان مثال، در این عکس از Song Hye-kyo، تصویر به ویدئو تنها تصویر استاتیک را به تصویری پویا با برد محدود و بدون حرکت قابل توجه تبدیل می کند.


با همان عکس، «مرجع موضوع» میتواند یک بخش کامل را بر اساس پیامهای متنی ایجاد کند، و در عین حال که ویژگیهای صورت را ثابت نگه میدارد، امکان حرکت آزاد را فراهم میکند.

در حال حاضر دو مسیر فنی برای تولید ویدیوهای با موضوع وجود دارد. یکی بر اساس فناوری LoRA است که مدلهای بزرگ از پیش آموزشدیده را بهخوبی تنظیم میکند. LoRA به محاسبات قابل توجهی در هنگام تولید ویدیوهای جدید نیاز دارد و کاربران را مجبور می کند چندین زاویه از یک موضوع را آپلود کنند، حتی برای اطمینان از کیفیت، عناصر مختلفی را برای هر بخش مشخص کنند. این همچنین توکن های زیادی را مصرف می کند و به زمان انتظار طولانی نیاز دارد.
پس از کاوش فنی گسترده، MiniMax مسیری را بر اساس مرجع تصویر انتخاب کرد: تصاویر حاوی دقیق ترین اطلاعات بصری هستند که با منطق خلاقانه عکاسی فیزیکی همسو می شوند. در این مسیر، شخصیت اصلی در تصویر اولویت اصلی مدل برای تشخیص است - صرف نظر از صحنه ها یا طرح بعدی، موضوع باید ثابت بماند.
سایر اطلاعات بصری بازتر هستند و توسط اعلان های متنی کنترل می شوند. این رویکرد به هدف "تولید مجدد دقیق + آزادی بالا" دست می یابد.


در این ویدئو تنها یک عکس از ملکه اژدها در اختیار مدل قرار گرفت. ویدئوی تولید شده نهایی به دقت زبان دوربین و عناصر بصری ذکر شده در اعلان را نشان میدهد و درک قوی را نشان میدهد.
در مقایسه با راه حل LoRA، این رویکرد فنی به میزان قابل توجهی مقدار مطالبی که کاربران برای آپلود نیاز دارند را کاهش می دهد و ده ها بخش ویدیو را به یک تصویر تبدیل می کند. زمان انتظار بر حسب ثانیه اندازهگیری میشود، احساسی شبیه به زمانی که برای تولید متن یا تصاویر طول میکشد – ترکیبی از دقت تصویر به ویدیو با آزادی متن به ویدیو.
نکات برجسته تولید چینی، برآورده کردن نیازهای چندگانه شما
نیازهای چندگانه یک تقاضای بیش از حد نیست. تنها با دستیابی همزمان به تصاویر دقیق و منسجم کاراکتر و حرکت آزاد، این مدل میتواند از کاربردهای سرگرمی ساده پیشی گرفته و ارزش گستردهتری در کاربردهای صنعتی داشته باشد.
به عنوان مثال، در تبلیغات محصول، یک تصویر مدل واحد میتواند مستقیماً با تغییر کلمات درخواستی، ویدیوهای مختلف محصول را تولید کند.


اگر از روشهای تصویر به ویدیو استفاده میکنید، راهحل اصلی فعلی تنظیم اولین و آخرین فریم است، با تأثیر محدود به تصاویر موجود. همچنین نیاز به تلاشهای مکرر برای جمعآوری زوایای مختلف و سپس دوختن مواد به یکدیگر برای تکمیل مجموعهای از عکسها دارد.
ترکیب ویژگیهای فنآوریهای مختلف برای تناسب بهتر با جریان کار ایجاد ویدیو، مزیت «مرجع موضوع» است. در آینده، بیش از 80 درصد از متخصصان بازاریابی از ابزارهای مولد در مراحل مختلف استفاده خواهند کرد و تنها بر روی داستان و طرح داستان تمرکز می کنند و دست خود را آزاد می کنند.
طبق آمار Statista، اندازه بازار محصولات هوش مصنوعی مولد در تبلیغات و بازاریابی در سال 15 از 2021 میلیارد دلار فراتر رفت. تا سال 2028، این تعداد به 107.5 میلیارد دلار خواهد رسید. در گردشهای کاری قبلی، متن به ویدیو خالص دارای عوامل غیرقابل کنترل بسیار زیادی بود که برای مراحل اولیه ایجاد مناسب بود. در صنایع تبلیغات و بازاریابی اروپا و آمریکا، هوش مصنوعی مولد در حال حاضر بسیار رایج است، با 52٪ موارد استفاده برای پیش نویس و برنامه ریزی، و 48٪ برای طوفان فکری.
در حال حاضر، هوش مصنوعی Hailuo ابتدا قابلیت مرجع را برای یک کاراکتر باز می کند. در آینده، آن را به شخصیتها، اشیا، صحنهها و موارد دیگر گسترش خواهد داد و خلاقیتهای بیشتری را آزاد میکند، همانطور که توسط شعار Hailuo، "هر ایده یک پرفروش است" پیشنهاد شده است.
از زمانی که MiniMax مدل ویدیویی را در آگوست 2023 منتشر کرد، به طور مداوم تعداد زیادی از کاربران را در سطح بینالمللی به خود جذب کرده است، از کیفیت و روان بودن تصاویر تولید شده گرفته تا ثبات و پایداری، دریافت بازخوردهای مثبت فراوان و شناخت حرفهای.


در سال گذشته رقابت های تکنولوژیکی، در ابتدا چشم انداز رقابتی حوزه تولید ویدیوی هوش مصنوعی پدیدار شد. اجرای Sora پتانسیل تولید ویدیو را نشان داد و شرکت های بزرگ فناوری را بر آن داشت تا در این زمینه سرمایه گذاری زیادی کنند.
با تاخیر در عرضه محصول سورا در پایان سال 2024 و بررسی های متوسط کاربران، نتوانست انتظارات بازار را برآورده کند و به دیگر بازیگران فرصتی برای تصاحب بازار داد.
اکنون، با ورود ویدیوی مولد به نیمه دوم، تنها سه شرکت واقعاً قدرت فنی و پتانسیل توسعه را نشان میدهند: هوش مصنوعی Hailuo از MiniMax، هوش مصنوعی Keling از Kuaishou و هوش مصنوعی Jimeng از ByteDance.
مینی مکس به عنوان یک استارتاپ که همین سه سال پیش تأسیس شد، محصولات و فناوری هایی را به ارمغان آورده است که می توانند با اندازه استارتاپ ناب خود در سطح بالایی رقابت کنند. از مدل I2V-01-Live تصویر به ویدیو در دسامبر 2023 تا مدل جدید S2V-01، آنها چالش های نسل قبلی ویدیو را حل کرده اند.
همانطور که فناوری به رشد خود ادامه می دهد و سناریوهای کاربردی گسترش می یابد، هوش مصنوعی تولید ویدئو جرقه انقلاب جدیدی در تولید محتوا، تولید فیلم، بازاریابی و ارتباطات خواهد کرد. این شرکتها که نشاندهنده بالاترین سطح هوش مصنوعی در تولید ویدیو در چین هستند، نه تنها در بازار چین پیشرو هستند، بلکه انتظار میرود در سطح جهانی با غولهای بینالمللی نیز رقابت کنند. در همین حال، اطمینان از ثبات محصول و کنترل پذیری با حفظ نوآوری های تکنولوژیکی چالشی مستمر برای این شرکت ها خواهد بود.
منبع از افانر
سلب مسئولیت: اطلاعات ذکر شده در بالا توسط ifanr.com، مستقل از Chovm.com ارائه شده است. Chovm.com هیچ گونه نمایندگی و ضمانتی در مورد کیفیت و قابلیت اطمینان فروشنده و محصولات نمی دهد. Chovm.com صراحتاً هر گونه مسئولیتی را در قبال نقض حق نسخه برداری محتوا سلب می کند.