Beranda » Berita Terkini » Inovasi Video AI: Revolusi Menggambar Kartu Tanpa Genggam
Gambar sampul teknologi video AI.

Inovasi Video AI: Revolusi Menggambar Kartu Tanpa Genggam

Tidak puas setelah menonton “Squid Game”? Ciptakan akhir ceritamu sendiri.

Gambar dari Squid Game
GIF dari akhir Squid Game yang unik

Tidak sabar menunggu "Dune Bagian Tiga"? Buat versi Anda sendiri.

Gambar dari Dune
GIF dari pemandangan Dune yang unik

Sebelumnya, mempertahankan penampilan karakter yang konsisten membutuhkan waktu yang lama. Kini, hanya dengan satu tangkapan layar, AI dapat mulai membuat film.

Hal ini berkat fitur "Subject Reference" dari Conch AI, yang didukung oleh model S2V-01 yang baru. Fitur ini mengidentifikasi subjek secara akurat dalam gambar yang diunggah dan menetapkannya sebagai karakter dalam video yang dihasilkan. Selebihnya sederhana: berkreasilah secara bebas dengan instruksi dasar.

GIF yang menunjukkan penyimpanan informasi wajah yang tepat
Pembuatan oleh pengguna X @KarolineGeorges, dengan retensi informasi wajah yang tepat”
GIF yang menunjukkan berbagai subjek
Karya oleh pengguna X @Apple_Dog_Sol, menampilkan berbagai subjek”

Keuntungan Fitur “Referensi Subjek”

Banyak perusahaan yang mengembangkan fitur “Referensi Subjek”, tetapi tidak semuanya dapat mengatasi tantangan stabilitas dan koherensi, terutama menjaga konsistensi dalam gerakan.

Sementara yang lain mungkin kesulitan, Conch AI unggul. Hanya dengan satu gambar, Conch AI memahami ciri-ciri karakter secara akurat, mengidentifikasi mereka sebagai subjek, dan menempatkan mereka dalam berbagai adegan.

Suatu saat Spider-Man tengah menyelamatkan dunia, saat berikutnya dia tengah mengendarai sepeda motor.

Laba-laba di jaring

Laba-laba bergerak di jaring

Sang Ibu Naga, yang seharusnya melatih para naga dalam “Game of Thrones,” kini bermain dengan seekor serigala kecil.

Ibu Naga dengan serigala
Ibu Naga bermain dengan serigala

Terobosan dalam "referensi subjek" terletak pada pencapaian keseimbangan antara kebebasan kreatif dan kesetiaan. Ini seperti memberi kreator "aktor universal" yang penampilannya tidak terdistorsi tetapi berubah secara alami dengan tindakan dan pose, melakukan tindakan apa pun dalam adegan apa pun seperti yang diminta oleh sutradara.

Bukan Hanya Fitur Baru, Tapi Solusi Teknis yang Unik

Pengalaman pengujian sesungguhnya memperlihatkan bahwa referensi subjek merupakan fungsi yang berbeda, dengan tantangan dan persyaratan teknis yang berbeda dibandingkan dengan pembangkitan teks ke gambar atau gambar ke gambar.

Pembuatan gambar ke video tradisional hanya menganimasikan gambar statis, terutama dengan modifikasi parsial. Misalnya, dalam gambar diam Song Hye-kyo ini, pembuatan gambar ke video hanya mengubah gambar statis menjadi gambar dinamis dengan rentang terbatas dan tanpa gerakan signifikan.

Foto asli Song Hye-kyo
Gambar asli masih utuh
Gambar animasi Song Hye-kyo
Video yang dihasilkan dari gambar ke video

Dengan foto yang sama, “referensi subjek” dapat membuat segmen lengkap berdasarkan perintah teks, memungkinkan pergerakan bebas sambil mempertahankan fitur wajah yang stabil.

Video yang dihasilkan Song Hye-kyo
Pencahayaan dalam ruangan yang hangat, di antara penonton teater, tokoh utama dalam setelan jas hitam, duduk di tengah baris kiri. Ekspresinya terfokus, sesekali tersenyum tipis, bertepuk tangan secara alami dan berirama. Kamera mulai dari sampingnya, menangkap siluet penonton lain dan tekstur kursi yang redup, menekankan kedalaman lingkungan. Saat kamera bergerak masuk, tokoh utama berdiri.

Saat ini ada dua rute teknis untuk menghasilkan video dengan subjek. Salah satunya didasarkan pada teknologi LoRA, yang menyempurnakan model generatif besar yang telah dilatih sebelumnya. LoRA memerlukan komputasi yang signifikan saat menghasilkan video baru, yang mengharuskan pengguna untuk mengunggah beberapa sudut dari subjek yang sama, bahkan menentukan elemen yang berbeda untuk setiap segmen guna memastikan kualitas. Ini juga menghabiskan banyak token dan memerlukan waktu tunggu yang lama.

Setelah eksplorasi teknis yang ekstensif, MiniMax memilih rute berdasarkan referensi gambar: gambar berisi informasi visual yang paling akurat, yang selaras dengan logika kreatif pengambilan gambar fisik. Dalam rute ini, tokoh utama dalam gambar menjadi prioritas utama model untuk dikenali—terlepas dari adegan atau alur cerita berikutnya, subjek harus tetap konsisten.

Informasi visual lainnya lebih terbuka dan dikendalikan oleh perintah teks. Pendekatan ini mencapai tujuan "reproduksi yang tepat + kebebasan tinggi."

Ibu Naga dengan seekor naga
Karakter berdiri di depan seekor naga, rambut dan gaun berkibar tertiup angin.
Di sebuah tanah lapang di lembah, tokoh utama berdiri di hadapan seekor naga, rambut panjang mereka berkibar tertiup angin. Kamera perlahan-lahan memperkecil gambar, menangkap tokoh utama yang menoleh untuk melihat ke kejauhan. Sayap sang naga melebar, meniup rambut dan gaun sang tokoh utama, dan adegan berakhir dengan bidikan dari atas.

Dalam video ini, hanya satu gambar Ratu Naga yang diberikan kepada model. Video akhir yang dihasilkan secara akurat menyajikan bahasa kamera dan elemen visual yang disebutkan dalam perintah, menunjukkan pemahaman yang kuat.

Dibandingkan dengan solusi LoRA, pendekatan teknis ini secara signifikan mengurangi jumlah materi yang perlu diunggah pengguna, mengubah lusinan segmen video menjadi satu gambar. Waktu tunggu diukur dalam hitungan detik, terasa mirip dengan waktu yang dibutuhkan untuk membuat teks atau gambar—menggabungkan keakuratan gambar ke video dengan kebebasan teks ke video.

Sorotan Manufaktur Tiongkok, Memenuhi Berbagai Kebutuhan Anda

Berbagai kebutuhan bukanlah tuntutan yang berlebihan. Hanya dengan mencapai gambar karakter yang akurat dan konsisten serta gerakan bebas secara bersamaan, model tersebut dapat melampaui penggunaan hiburan sederhana dan memiliki nilai yang lebih luas dalam aplikasi industri.

Misalnya, dalam iklan produk, gambar model tunggal dapat langsung menghasilkan berbagai video produk hanya dengan mengubah kata-kata perintah.

Pelari yang bergerak, menampilkan pembuatan video yang dinamis.
Video produk kaca, menyoroti pembuatan visual secara mendetail.

Jika menggunakan metode gambar ke video, solusi umum saat ini adalah menetapkan frame pertama dan terakhir, dengan efek yang dibatasi oleh gambar yang ada. Hal ini juga memerlukan upaya berulang untuk mengumpulkan sudut yang berbeda dan kemudian menggabungkan bahan-bahan tersebut untuk melengkapi serangkaian bidikan.

Menggabungkan karakteristik berbagai teknologi agar lebih sesuai dengan alur kerja pembuatan video merupakan keuntungan dari "referensi subjek". Di masa mendatang, lebih dari 80% profesional pemasaran akan menggunakan alat generatif di berbagai tahap, dengan fokus hanya pada konsepsi cerita dan plot, sehingga mereka dapat lebih leluasa.

Menurut Statista, ukuran pasar produk AI generatif dalam periklanan dan pemasaran melampaui $15 miliar pada tahun 2021. Pada tahun 2028, angka ini akan mencapai $107.5 miliar. Dalam alur kerja sebelumnya, teks murni ke video memiliki terlalu banyak faktor yang tidak dapat dikontrol, cocok untuk tahap awal pembuatan. Dalam industri periklanan dan pemasaran Eropa dan Amerika, AI generatif sudah sangat umum, dengan 52% kasus penggunaan untuk draf dan perencanaan, dan 48% untuk curah pendapat.

Saat ini, Hailuo AI pertama-tama membuka kemampuan referensi untuk satu karakter. Di masa mendatang, AI akan diperluas ke berbagai karakter, objek, adegan, dan lainnya, yang selanjutnya akan melepaskan kreativitas, sebagaimana yang diusulkan oleh slogan Hailuo, "Setiap ide adalah sebuah blockbuster."

Sejak MiniMax merilis model video pada bulan Agustus 2023, model ini terus menarik banyak pengguna internasional, mulai dari kualitas dan kelancaran gambar yang dihasilkan hingga konsistensi dan stabilitas, serta menerima banyak umpan balik positif dan pengakuan profesional.

Logo AI Hailuo
Logo Techhalla.

Dalam persaingan teknologi tahun lalu, lanskap persaingan bidang pembuatan video AI mulai muncul. Implementasi Sora menunjukkan potensi pembuatan video, yang mendorong perusahaan teknologi besar untuk berinvestasi besar di bidang ini.

Dengan peluncuran produk Sora yang tertunda pada akhir tahun 2024 dan ulasan pengguna yang rata-rata, produk tersebut gagal memenuhi ekspektasi pasar, sehingga memberi peluang pemain lain untuk merebut pasar.

Sekarang, saat video generatif memasuki paruh kedua, hanya tiga perusahaan yang benar-benar menunjukkan kekuatan teknis dan potensi pengembangan: Hailuo AI milik MiniMax, Keling AI milik Kuaishou, dan Jimeng AI milik ByteDance.

Sebagai perusahaan rintisan yang berdiri tiga tahun lalu, MiniMax telah menghadirkan produk dan teknologi yang dapat bersaing di level teratas dengan ukuran perusahaan rintisannya yang ramping. Dari model gambar-ke-video I2V-01-Live pada bulan Desember 2023 hingga model S2V-01 yang baru, mereka telah memecahkan tantangan generasi video sebelumnya.

Seiring dengan semakin matangnya teknologi dan meluasnya skenario aplikasi, AI generasi video akan memicu revolusi baru dalam pembuatan konten, produksi film, pemasaran, dan komunikasi. Perusahaan-perusahaan ini, yang mewakili level tertinggi bidang AI generasi video di Tiongkok, tidak hanya memimpin pasar Tiongkok tetapi juga diharapkan untuk bersaing secara global dengan para raksasa internasional. Sementara itu, memastikan stabilitas dan pengendalian produk sambil mempertahankan inovasi teknologi akan menjadi tantangan berkelanjutan bagi perusahaan-perusahaan ini.

Sumber dari jika

Penafian: Informasi yang diuraikan di atas disediakan oleh ifanr.com, independen dari Chovm.com. Chovm.com tidak membuat pernyataan dan jaminan mengenai kualitas dan keandalan penjual dan produk. Chovm.com secara tegas melepaskan tanggung jawab apa pun atas pelanggaran yang berkaitan dengan hak cipta konten.

Tinggalkan Komentar

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *

Gulir ke Atas