نوآوری ویدیویی هوش مصنوعی: انقلاب ترسیم کارت بدون دست -

پس از تماشای «بازی ماهی مرکب» راضی نیستید؟ پایان خود را بسازید

آیا نمی توانید برای "Dune Part Three" صبر کنید؟ نسخه خود را بسازید.

پیش از این، حفظ ظاهر یک شخصیت مستلزم زمان قابل توجهی بود. اکنون، تنها با یک اسکرین شات، هوش مصنوعی می تواند شروع به ساخت فیلم کند.

این به لطف ویژگی Conch AI "Subject Reference" است که توسط مدل جدید S2V-01 ارائه شده است. این به طور دقیق موضوع را در تصاویر آپلود شده شناسایی می کند و آن را به عنوان شخصیت در فیلم های تولید شده تنظیم می کند. بقیه ساده است: آزادانه با دستورالعمل های اساسی ایجاد کنید.

GIF نگهداری دقیق اطلاعات صورت را نشان می دهد — _{ایجاد توسط کاربر X @KarolineGeorges، با حفظ دقیق اطلاعات صورت”}

GIF موضوعات متنوع را نشان می دهد — _{ایجاد توسط کاربر X @Apple_Dog_Sol، به نمایش گذاشتن موضوعات متنوع”}

مزایای ویژگی "مرجع موضوع".

بسیاری از شرکت‌ها در حال توسعه ویژگی‌های «مرجع موضوع» هستند، اما همه نمی‌توانند با چالش‌های ثبات و انسجام، به ویژه حفظ ثبات در حرکت مقابله کنند.

در حالی که دیگران ممکن است مشکل داشته باشند، هوش مصنوعی Conch برتر است. تنها با یک تصویر، ویژگی های شخصیت را به دقت درک می کند، آنها را به عنوان سوژه شناسایی می کند و آنها را در صحنه های مختلف قرار می دهد.

یک لحظه مرد عنکبوتی دارد دنیا را نجات می دهد و لحظه ای دیگر سوار موتورسیکلت می شود.

مادر اژدها که باید در «بازی تاج و تخت» اژدها تربیت کند، اکنون با یک گرگ کوچک بازی می‌کند.

پیشرفت در "ارجاع موضوع" در دستیابی به تعادل بین آزادی خلاق و وفاداری است. مثل این است که به سازندگان یک «بازیگر جهانی» بدهیم که ظاهرش تحریف نمی‌شود، اما طبیعتاً با کنش‌ها و ژست‌ها تغییر می‌کند، و هر عملی را در هر صحنه‌ای که کارگردان می‌خواهد انجام می‌دهد.

نه فقط یک ویژگی جدید، بلکه یک راه حل فنی منحصر به فرد

تجربه واقعی آزمون نشان می‌دهد که مرجع موضوع عملکرد متفاوتی است، با چالش‌ها و الزامات فنی متفاوت در مقایسه با تولید متن به تصویر یا تصویر به تصویر.

تولید سنتی تصویر به ویدیو فقط تصاویر ثابت را متحرک می کند، عمدتاً با تغییرات جزئی. به عنوان مثال، در این عکس از Song Hye-kyo، تصویر به ویدئو تنها تصویر استاتیک را به تصویری پویا با برد محدود و بدون حرکت قابل توجه تبدیل می کند.

عکس متحرک Song Hye-kyo — _{ویدئو تولید شده از تصویر به ویدئو}

با همان عکس، «مرجع موضوع» می‌تواند یک بخش کامل را بر اساس پیام‌های متنی ایجاد کند، و در عین حال که ویژگی‌های صورت را ثابت نگه می‌دارد، امکان حرکت آزاد را فراهم می‌کند.

ویدیوی ساخته شده از Song Hye-kyo — _{نورپردازی گرم داخلی، در تماشاگران تئاتر، قهرمان داستان با کت و شلوار مشکی، در وسط ردیف سمت چپ نشسته است. بیان او متمرکز است، گاهی اوقات به آرامی لبخند می زند، به طور طبیعی و ریتمیک دست می زند. دوربین از سمت او شروع می‌شود و تصاویری از سایر مخاطبان و بافت‌های تیره صندلی را می‌گیرد و بر عمق محیط تأکید می‌کند. همانطور که دوربین به سمت داخل حرکت می کند، قهرمان داستان می ایستد.}

در حال حاضر دو مسیر فنی برای تولید ویدیوهای با موضوع وجود دارد. یکی بر اساس فناوری LoRA است که مدل‌های بزرگ از پیش آموزش‌دیده را به‌خوبی تنظیم می‌کند. LoRA به محاسبات قابل توجهی در هنگام تولید ویدیوهای جدید نیاز دارد و کاربران را مجبور می کند چندین زاویه از یک موضوع را آپلود کنند، حتی برای اطمینان از کیفیت، عناصر مختلفی را برای هر بخش مشخص کنند. این همچنین توکن های زیادی را مصرف می کند و به زمان انتظار طولانی نیاز دارد.

پس از کاوش فنی گسترده، MiniMax مسیری را بر اساس مرجع تصویر انتخاب کرد: تصاویر حاوی دقیق ترین اطلاعات بصری هستند که با منطق خلاقانه عکاسی فیزیکی همسو می شوند. در این مسیر، شخصیت اصلی در تصویر اولویت اصلی مدل برای تشخیص است - صرف نظر از صحنه ها یا طرح بعدی، موضوع باید ثابت بماند.

سایر اطلاعات بصری بازتر هستند و توسط اعلان های متنی کنترل می شوند. این رویکرد به هدف "تولید مجدد دقیق + آزادی بالا" دست می یابد.

شخصیت در برابر اژدها، مو و لباسی که در باد می وزد می ایستد. — _{در یک خلوت در دره، قهرمان داستان در برابر اژدهایی ایستاده و موهای بلندشان در باد جاری است. دوربین به تدریج کوچک‌نمایی می‌کند و قهرمان داستان را در حال چرخش برای نگاه کردن به دوردست می‌گیرد. بال‌های اژدها باز می‌شود و موها و لباس قهرمان داستان را وزش می‌دهد و صحنه با یک شات بالای سر به پایان می‌رسد.»}

در این ویدئو تنها یک عکس از ملکه اژدها در اختیار مدل قرار گرفت. ویدئوی تولید شده نهایی به دقت زبان دوربین و عناصر بصری ذکر شده در اعلان را نشان می‌دهد و درک قوی را نشان می‌دهد.

در مقایسه با راه حل LoRA، این رویکرد فنی به میزان قابل توجهی مقدار مطالبی که کاربران برای آپلود نیاز دارند را کاهش می دهد و ده ها بخش ویدیو را به یک تصویر تبدیل می کند. زمان انتظار بر حسب ثانیه اندازه‌گیری می‌شود، احساسی شبیه به زمانی که برای تولید متن یا تصاویر طول می‌کشد – ترکیبی از دقت تصویر به ویدیو با آزادی متن به ویدیو.

نکات برجسته تولید چینی، برآورده کردن نیازهای چندگانه شما

نیازهای چندگانه یک تقاضای بیش از حد نیست. تنها با دستیابی همزمان به تصاویر دقیق و منسجم کاراکتر و حرکت آزاد، این مدل می‌تواند از کاربردهای سرگرمی ساده پیشی گرفته و ارزش گسترده‌تری در کاربردهای صنعتی داشته باشد.

به عنوان مثال، در تبلیغات محصول، یک تصویر مدل واحد می‌تواند مستقیماً با تغییر کلمات درخواستی، ویدیوهای مختلف محصول را تولید کند.

دونده در حرکت، تولید ویدئوی پویا را به نمایش می گذارد.

ویدیوی محصول شیشه ای، تولید بصری دقیق را برجسته می کند.

اگر از روش‌های تصویر به ویدیو استفاده می‌کنید، راه‌حل اصلی فعلی تنظیم اولین و آخرین فریم است، با تأثیر محدود به تصاویر موجود. همچنین نیاز به تلاش‌های مکرر برای جمع‌آوری زوایای مختلف و سپس دوختن مواد به یکدیگر برای تکمیل مجموعه‌ای از عکس‌ها دارد.

ترکیب ویژگی‌های فن‌آوری‌های مختلف برای تناسب بهتر با جریان کار ایجاد ویدیو، مزیت «مرجع موضوع» است. در آینده، بیش از 80 درصد از متخصصان بازاریابی از ابزارهای مولد در مراحل مختلف استفاده خواهند کرد و تنها بر روی داستان و طرح داستان تمرکز می کنند و دست خود را آزاد می کنند.

طبق آمار Statista، اندازه بازار محصولات هوش مصنوعی مولد در تبلیغات و بازاریابی در سال 15 از 2021 میلیارد دلار فراتر رفت. تا سال 2028، این تعداد به 107.5 میلیارد دلار خواهد رسید. در گردش‌های کاری قبلی، متن به ویدیو خالص دارای عوامل غیرقابل کنترل بسیار زیادی بود که برای مراحل اولیه ایجاد مناسب بود. در صنایع تبلیغات و بازاریابی اروپا و آمریکا، هوش مصنوعی مولد در حال حاضر بسیار رایج است، با 52٪ موارد استفاده برای پیش نویس و برنامه ریزی، و 48٪ برای طوفان فکری.

در حال حاضر، هوش مصنوعی Hailuo ابتدا قابلیت مرجع را برای یک کاراکتر باز می کند. در آینده، آن را به شخصیت‌ها، اشیا، صحنه‌ها و موارد دیگر گسترش خواهد داد و خلاقیت‌های بیشتری را آزاد می‌کند، همانطور که توسط شعار Hailuo، "هر ایده یک پرفروش است" پیشنهاد شده است.

از زمانی که MiniMax مدل ویدیویی را در آگوست 2023 منتشر کرد، به طور مداوم تعداد زیادی از کاربران را در سطح بین‌المللی به خود جذب کرده است، از کیفیت و روان بودن تصاویر تولید شده گرفته تا ثبات و پایداری، دریافت بازخوردهای مثبت فراوان و شناخت حرفه‌ای.

در سال گذشته رقابت های تکنولوژیکی، در ابتدا چشم انداز رقابتی حوزه تولید ویدیوی هوش مصنوعی پدیدار شد. اجرای Sora پتانسیل تولید ویدیو را نشان داد و شرکت های بزرگ فناوری را بر آن داشت تا در این زمینه سرمایه گذاری زیادی کنند.

با تاخیر در عرضه محصول سورا در پایان سال 2024 و بررسی های متوسط کاربران، نتوانست انتظارات بازار را برآورده کند و به دیگر بازیگران فرصتی برای تصاحب بازار داد.

اکنون، با ورود ویدیوی مولد به نیمه دوم، تنها سه شرکت واقعاً قدرت فنی و پتانسیل توسعه را نشان می‌دهند: هوش مصنوعی Hailuo از MiniMax، هوش مصنوعی Keling از Kuaishou و هوش مصنوعی Jimeng از ByteDance.

مینی مکس به عنوان یک استارتاپ که همین سه سال پیش تأسیس شد، محصولات و فناوری هایی را به ارمغان آورده است که می توانند با اندازه استارتاپ ناب خود در سطح بالایی رقابت کنند. از مدل I2V-01-Live تصویر به ویدیو در دسامبر 2023 تا مدل جدید S2V-01، آنها چالش های نسل قبلی ویدیو را حل کرده اند.

همانطور که فناوری به رشد خود ادامه می دهد و سناریوهای کاربردی گسترش می یابد، هوش مصنوعی تولید ویدئو جرقه انقلاب جدیدی در تولید محتوا، تولید فیلم، بازاریابی و ارتباطات خواهد کرد. این شرکت‌ها که نشان‌دهنده بالاترین سطح هوش مصنوعی در تولید ویدیو در چین هستند، نه تنها در بازار چین پیشرو هستند، بلکه انتظار می‌رود در سطح جهانی با غول‌های بین‌المللی نیز رقابت کنند. در همین حال، اطمینان از ثبات محصول و کنترل پذیری با حفظ نوآوری های تکنولوژیکی چالشی مستمر برای این شرکت ها خواهد بود.

منبع از افانر

سلب مسئولیت: اطلاعات ذکر شده در بالا توسط ifanr.com، مستقل از Chovm.com ارائه شده است. Chovm.com هیچ گونه نمایندگی و ضمانتی در مورد کیفیت و قابلیت اطمینان فروشنده و محصولات نمی دهد. Chovm.com صراحتاً هر گونه مسئولیتی را در قبال نقض حق نسخه برداری محتوا سلب می کند.

آخرین اخبار

نوآوری ویدیویی هوش مصنوعی: انقلاب ترسیم کارت بدون دست

مزایای ویژگی "مرجع موضوع".

نه فقط یک ویژگی جدید، بلکه یک راه حل فنی منحصر به فرد

نکات برجسته تولید چینی، برآورده کردن نیازهای چندگانه شما

درباره نویسنده

افانر

ارسال نظر

مزایای ویژگی "مرجع موضوع".

نه فقط یک ویژگی جدید، بلکه یک راه حل فنی منحصر به فرد

نکات برجسته تولید چینی، برآورده کردن نیازهای چندگانه شما

درباره نویسنده

افانر

پست‌های مرتبط

ارسال نظر