Inovasi Video AI: Revolusi Lukisan Kad Bebas Tangan -

Tidak berpuas hati selepas menonton "Permainan Sotong"? Cipta pengakhiran anda sendiri.

Tidak sabar menunggu “Dune Part Three”? Buat versi anda sendiri.

Sebelum ini, mengekalkan penampilan watak yang konsisten memerlukan masa yang ketara. Kini, dengan hanya tangkapan skrin, AI boleh mula membuat filem.

Ini adalah terima kasih kepada ciri "Rujukan Subjek" Conch AI, dikuasakan oleh model S2V-01 baharu. Ia mengenal pasti subjek dengan tepat dalam imej yang dimuat naik dan menetapkannya sebagai watak dalam video yang dijana. Selebihnya mudah: buat secara bebas dengan arahan asas.

GIF menunjukkan pengekalan maklumat muka yang tepat — _{Ciptaan oleh pengguna X @KarolineGeorges, dengan pengekalan maklumat wajah yang tepat”}

GIF menunjukkan pelbagai subjek — _{Ciptaan pengguna X @Apple_Dog_Sol, mempamerkan pelbagai subjek”}

Kelebihan Ciri "Rujukan Subjek".

Banyak syarikat sedang membangunkan ciri "Rujukan Subjek", tetapi tidak semua dapat menangani cabaran kestabilan dan keselarasan, terutamanya mengekalkan konsistensi dalam pergerakan.

Walaupun yang lain mungkin bergelut, Conch AI cemerlang. Dengan hanya satu imej, ia memahami ciri watak dengan tepat, mengenal pasti mereka sebagai subjek dan meletakkannya dalam pelbagai adegan.

Satu ketika Spider-Man menyelamatkan dunia, yang seterusnya dia menunggang motosikal.

Ibu Naga, yang sepatutnya melatih naga dalam “Game of Thrones,” kini bermain dengan seekor serigala kecil.

Kejayaan dalam "rujukan subjek" terletak pada mencapai keseimbangan antara kebebasan kreatif dan kesetiaan. Ia seperti memberikan pencipta "pelakon sejagat" yang penampilannya tidak memesongkan tetapi secara semula jadi berubah dengan aksi dan pose, melakukan apa-apa aksi dalam mana-mana adegan seperti yang dikehendaki oleh pengarah.

Bukan Sekadar Ciri Baru, Tetapi Penyelesaian Teknikal yang Unik

Pengalaman ujian sebenar menunjukkan bahawa rujukan subjek adalah fungsi yang berbeza, dengan cabaran dan keperluan teknikal yang berbeza berbanding dengan penjanaan teks-ke-imej atau imej-ke-imej.

Penjanaan imej-ke-video tradisional hanya menghidupkan imej statik, terutamanya dengan pengubahsuaian separa. Contohnya, dalam pegun Song Hye-kyo ini, imej-ke-video hanya menukar imej statik kepada imej dinamik dengan julat terhad dan tiada pergerakan yang ketara.

Pegun animasi Song Hye-kyo — _{Video yang dihasilkan daripada imej-ke-video}

Dengan foto yang sama, "rujukan subjek" boleh mencipta segmen lengkap berdasarkan gesaan teks, membolehkan pergerakan bebas sambil mengekalkan ciri muka yang stabil.

Video yang dihasilkan Song Hye-kyo — _{Pencahayaan dalaman yang hangat, dalam penonton teater, protagonis dalam sut hitam, duduk di barisan tengah kiri. Ekspresinya fokus, sesekali tersenyum ringan, bertepuk tangan secara natural dan berirama. Kamera bermula dari sisinya, merakam siluet penonton lain dan tekstur tempat duduk yang malap, menekankan kedalaman persekitaran. Apabila kamera bergerak masuk, protagonis berdiri.}

Pada masa ini terdapat dua laluan teknikal untuk menjana video dengan subjek. Satu adalah berdasarkan teknologi LoRA, yang memperhalusi model generatif besar yang telah dilatih. LoRA memerlukan pengiraan yang ketara apabila menjana video baharu, yang memerlukan pengguna memuat naik berbilang sudut subjek yang sama, malah menetapkan elemen berbeza untuk setiap segmen untuk memastikan kualiti. Ini juga menggunakan banyak token dan memerlukan masa menunggu yang lama.

Selepas penerokaan teknikal yang meluas, MiniMax memilih laluan berdasarkan rujukan imej: imej mengandungi maklumat visual yang paling tepat, sejajar dengan logik kreatif penangkapan fizikal. Dalam laluan ini, protagonis dalam imej adalah keutamaan utama model untuk pengecaman—tidak kira adegan atau plot berikutnya, subjek mesti kekal konsisten.

Maklumat visual lain lebih terbuka dan dikawal oleh gesaan teks. Pendekatan ini mencapai matlamat "pembiakan tepat + kebebasan tinggi."

Watak berdiri di hadapan naga, rambut dan pakaian yang bertiup ditiup angin. — _{Dalam kawasan lapang di lembah, protagonis berdiri di hadapan seekor naga, rambut panjang mereka mengalir ditiup angin. Kamera mengezum keluar secara beransur-ansur, menangkap protagonis berpaling untuk melihat ke kejauhan. Sayap naga melebar, meniup rambut dan pakaian protagonis, dan adegan itu berakhir dengan pukulan atas kepala.”}

Dalam video ini, hanya satu gambar Ratu Naga diberikan kepada model tersebut. Video akhir yang dijana dengan tepat mempersembahkan bahasa kamera dan elemen visual yang disebut dalam gesaan, menunjukkan pemahaman yang kukuh.

Berbanding dengan penyelesaian LoRA, pendekatan teknikal ini mengurangkan jumlah bahan yang perlu dimuat naik oleh pengguna dengan ketara, mengubah berpuluh-puluh segmen video menjadi satu imej. Masa menunggu diukur dalam beberapa saat, merasakan masa yang diperlukan untuk menjana teks atau imej—menggabungkan ketepatan imej-ke-video dengan kebebasan teks-ke-video.

Sorotan Pengilangan Cina, Memenuhi Pelbagai Keperluan Anda

Keperluan berbilang bukan permintaan yang berlebihan. Hanya dengan mencapai imej watak yang tepat dan konsisten serta pergerakan bebas secara serentak model itu boleh mengatasi kegunaan hiburan mudah dan mempunyai nilai yang lebih luas dalam aplikasi industri.

Contohnya, dalam iklan produk, imej model tunggal boleh terus menjana pelbagai video produk dengan hanya menukar perkataan gesaan.

Pelari dalam gerakan, mempamerkan penjanaan video dinamik.

Video produk kaca, menonjolkan penjanaan visual terperinci.

Jika menggunakan kaedah imej-ke-video, penyelesaian arus perdana semasa adalah untuk menetapkan bingkai pertama dan terakhir, dengan kesan terhad oleh imej sedia ada. Ia juga memerlukan percubaan berulang untuk mengumpul sudut yang berbeza dan kemudian mencantumkan bahan bersama untuk melengkapkan urutan tangkapan.

Menggabungkan ciri-ciri teknologi yang berbeza agar lebih sesuai dengan aliran kerja penciptaan video ialah kelebihan "rujukan subjek." Pada masa hadapan, lebih 80% profesional pemasaran akan menggunakan alat generatif pada pelbagai peringkat, hanya menumpukan pada konsep cerita dan plot, membebaskan tangan mereka.

Menurut Statista, saiz pasaran produk AI generatif dalam pengiklanan dan pemasaran melebihi $15 bilion pada 2021. Menjelang 2028, jumlah ini akan mencapai $107.5 bilion. Dalam aliran kerja sebelumnya, teks-ke-video tulen mempunyai terlalu banyak faktor tidak terkawal, sesuai untuk peringkat awal penciptaan. Dalam industri pengiklanan dan pemasaran Eropah dan Amerika, AI generatif sudah menjadi sangat biasa, dengan 52% kes penggunaan untuk draf dan perancangan, dan 48% untuk sumbang saran.

Pada masa ini, Hailuo AI mula-mula membuka keupayaan rujukan untuk satu aksara. Pada masa hadapan, ia akan berkembang kepada berbilang watak, objek, adegan dan banyak lagi, seterusnya melancarkan kreativiti, seperti yang dicadangkan oleh slogan Hailuo, "Setiap idea adalah blokbuster."

Sejak MiniMax mengeluarkan model video pada Ogos 2023, ia terus menarik sejumlah besar pengguna di peringkat antarabangsa, daripada kualiti dan kelancaran imej yang dijana kepada konsistensi dan kestabilan, menerima banyak maklum balas positif dan pengiktirafan profesional.

Pada tahun persaingan teknologi yang lalu, landskap kompetitif bidang penjanaan video AI pada mulanya telah muncul. Pelaksanaan Sora menunjukkan potensi penjanaan video, mendorong syarikat teknologi utama untuk melabur banyak dalam bidang ini.

Dengan pelancaran produk Sora yang ditangguhkan pada penghujung tahun 2024 dan ulasan pengguna purata, ia gagal memenuhi jangkaan pasaran, memberi peluang kepada pemain lain untuk merebut pasaran.

Kini, apabila video generatif memasuki separuh kedua, hanya tiga syarikat yang benar-benar menunjukkan kekuatan teknikal dan potensi pembangunan: Hailuo AI MiniMax, Keling AI Kuaishou dan Jimeng AI ByteDance.

Sebagai syarikat permulaan yang ditubuhkan hanya tiga tahun lalu, MiniMax telah membawa produk dan teknologi yang boleh bersaing di peringkat teratas dengan saiz permulaannya yang ramping. Daripada model imej-ke-video I2V-01-Live pada Disember 2023 kepada model S2V-01 baharu, mereka telah menyelesaikan cabaran penjanaan video sebelumnya.

Apabila teknologi terus matang dan senario aplikasi berkembang, AI penjanaan video akan mencetuskan revolusi baharu dalam penciptaan kandungan, pengeluaran filem, pemasaran dan komunikasi. Syarikat-syarikat ini, yang mewakili tahap tertinggi bidang AI generasi video China, bukan sahaja menerajui pasaran China tetapi juga dijangka bersaing di peringkat global dengan gergasi antarabangsa. Sementara itu, memastikan kestabilan dan kebolehkawalan produk sambil mengekalkan inovasi teknologi akan menjadi cabaran berterusan bagi perusahaan ini.

Sumber daripada ifan

Penafian: Maklumat yang dinyatakan di atas disediakan oleh ifanr.com, secara bebas daripada Chovm.com. Chovm.com tidak membuat perwakilan dan jaminan tentang kualiti dan kebolehpercayaan penjual dan produk. Chovm.com secara jelas menafikan sebarang liabiliti untuk pelanggaran yang berkaitan dengan hak cipta kandungan.

Berita Terkini

Inovasi Video AI: Revolusi Lukisan Kad Bebas Tangan

Kelebihan Ciri "Rujukan Subjek".

Bukan Sekadar Ciri Baru, Tetapi Penyelesaian Teknikal yang Unik

Sorotan Pengilangan Cina, Memenuhi Pelbagai Keperluan Anda

Tentang Pengarang

ifan

Tinggalkan komen

Kelebihan Ciri "Rujukan Subjek".

Bukan Sekadar Ciri Baru, Tetapi Penyelesaian Teknikal yang Unik

Sorotan Pengilangan Cina, Memenuhi Pelbagai Keperluan Anda

Tentang Pengarang

ifan

Related Posts

Tinggalkan komen