Ana Sayfa » En Yeni Haberler » Yapay Zeka Video İnovasyonu: Eller Serbest Kart Çekme Devrimi
Yapay zeka video teknolojisinin kapak görseli.

Yapay Zeka Video İnovasyonu: Eller Serbest Kart Çekme Devrimi

“Squid Game”i izledikten sonra tatmin olmadınız mı? Kendi sonunuzu yaratın.

Squid Game'den görüntü
Özel bir Squid Oyunu sonunun GIF'i

“Dune Part Three” için sabırsızlanıyor musunuz? Kendi versiyonunuzu yapın.

Dune'dan görüntü
Özel bir Dune sahnesinin GIF'i

Daha önce, tutarlı karakter görünümlerini sürdürmek önemli bir zaman gerektiriyordu. Şimdi, sadece bir ekran görüntüsüyle, AI film yapmaya başlayabilir.

Bu, yeni S2V-01 modeliyle desteklenen Conch AI'nın "Konu Referansı" özelliği sayesindedir. Yüklenen görüntülerdeki konuyu doğru bir şekilde belirler ve oluşturulan videolarda karakter olarak ayarlar. Gerisi basit: temel talimatlarla özgürce yaratın.

Hassas yüz bilgisi tutma özelliğini gösteren GIF
X kullanıcısı @KarolineGeorges tarafından yaratıldı, hassas yüz bilgisi tutma özelliğiyle”
Çeşitli konuları gösteren GIF
X kullanıcısı @Apple_Dog_Sol tarafından yaratılan, çeşitli konuları sergileyen bir çalışma”

“Konu Referansı” Özelliğinin Avantajları

Pek çok şirket "Konu Referansı" özelliklerini geliştiriyor, ancak hepsi özellikle hareket halinde tutarlılığı korumak gibi istikrar ve tutarlılık zorluklarının üstesinden gelemiyor.

Diğerleri zorluk çekerken, Conch AI mükemmeldir. Tek bir görüntüyle karakter özelliklerini doğru bir şekilde anlar, onları özne olarak tanımlar ve çeşitli sahnelere yerleştirir.

Bir an Örümcek Adam dünyayı kurtarıyor, bir sonraki an motosiklet sürüyor.

Ağdaki örümcek

Örümcek bir ağ üzerinde hareket ediyor

Game of Thrones'ta ejderhaları eğitmesi gereken Ejderhaların Annesi, şimdi de minik bir kurtla oynuyor.

Kurtlu Ejderhaların Annesi
Ejderhaların Annesi bir kurtla oynuyor

"Konu referansı"ndaki atılım, yaratıcı özgürlük ve sadakat arasında bir denge yakalamakta yatar. Bu, yaratıcılara görünüşü bozulmayan, ancak eylemler ve pozlarla doğal olarak değişen, yönetmenin istediği herhangi bir sahnede herhangi bir eylemi gerçekleştiren "evrensel bir aktör" vermek gibidir.

Sadece Yeni Bir Özellik Değil, Benzersiz Bir Teknik Çözüm

Gerçek test deneyimi, konu referansının, metinden görüntüye veya görüntüden görüntüye oluşturmaya kıyasla farklı teknik zorlukları ve gereksinimleri olan farklı bir işlev olduğunu göstermektedir.

Geleneksel görüntüden videoya üretim yalnızca statik görüntüleri canlandırır, çoğunlukla kısmi değişikliklerle. Örneğin, Song Hye-kyo'nun bu karesinde, görüntüden videoya üretim yalnızca statik görüntüyü sınırlı aralıklı ve önemli hareketleri olmayan dinamik bir görüntüye dönüştürür.

Song Hye-kyo'nun orijinal fotoğrafı
Orijinal hala
Song Hye-kyo'nun animasyonlu fotoğrafı
Görüntüden videoya oluşturulan video

Aynı fotoğrafta, "konu referansı" metin istemlerine dayalı tam bir segment oluşturabilir, sabit yüz hatlarını korurken serbest hareket imkanı sağlayabilir.

Song Hye-kyo'nun oluşturulan videosu
Sıcak iç mekan aydınlatması, tiyatro seyircileri, siyah takım elbiseli kahraman, sol orta sırada oturuyor. İfadesi odaklanmış, ara sıra hafifçe gülümsüyor, doğal ve ritmik bir şekilde alkışlıyor. Kamera onun yanından başlıyor, diğer seyircilerin silüetlerini ve loş koltuk dokularını yakalayarak ortamın derinliğini vurguluyor. Kamera içeri doğru hareket ederken, kahraman ayağa kalkıyor.

Şu anda bir özneyle video üretmek için iki teknik yol bulunmaktadır. Bunlardan biri, önceden eğitilmiş büyük üretken modelleri ince ayarlayan LoRA teknolojisine dayanmaktadır. LoRA, yeni videolar üretirken önemli miktarda hesaplama gerektirir ve kullanıcıların aynı öznenin birden fazla açısını yüklemesini, hatta kaliteyi sağlamak için her bölüm için farklı öğeler belirtmesini gerektirir. Bu ayrıca çok sayıda token tüketir ve uzun bir bekleme süresi gerektirir.

Kapsamlı teknik araştırmanın ardından MiniMax, görüntü referansına dayalı bir yol seçti: Görüntüler, fiziksel çekimin yaratıcı mantığıyla uyumlu en doğru görsel bilgileri içerir. Bu yolda, görüntüdeki kahraman, modelin tanınması için en büyük önceliğidir; sonraki sahneler veya olay örgüsü ne olursa olsun, özne tutarlı kalmalıdır.

Diğer görsel bilgiler daha açıktır ve metin istemleriyle kontrol edilir. Bu yaklaşım, "kesin yeniden üretim + yüksek özgürlük" hedefine ulaşır.

Ejderhaların Annesi ve bir ejderha
Karakter bir ejderhanın önünde duruyor, saçları ve elbisesi rüzgarda uçuşuyor.
Vadideki bir açıklıkta, kahraman bir ejderhanın önünde duruyor, uzun saçları rüzgarda uçuşuyor. Kamera yavaş yavaş uzaklaşıyor ve kahramanın uzaklara bakmak için döndüğünü yakalıyor. Ejderhanın kanatları açılıyor, kahramanın saçlarını ve elbisesini savuruyor ve sahne yukarıdan bir çekimle sona eriyor.”

Bu videoda, Ejderha Kraliçesi'nin yalnızca bir resmi modele sağlandı. Üretilen son video, istemde belirtilen kamera dilini ve görsel öğeleri doğru bir şekilde sunarak güçlü bir anlayış gösterdi.

LoRA çözümüyle karşılaştırıldığında, bu teknik yaklaşım kullanıcıların yüklemesi gereken materyal miktarını önemli ölçüde azaltır ve düzinelerce video segmentini tek bir görüntüye dönüştürür. Bekleme süresi saniyelerle ölçülür ve metin veya görüntü oluşturmak için gereken zamana benzer hissedilir; görüntüden videoya doğruluğu metinden videoya özgürlüğüyle birleştirir.

Çin Üretiminin Öne Çıkan Özellikleri, Çoklu İhtiyaçlarınızı Karşılar

Çoklu ihtiyaçlar aşırı bir talep değildir. Sadece aynı anda doğru ve tutarlı karakter görüntüleri ve serbest hareket elde ederek model basit eğlence kullanımlarını aşabilir ve endüstri uygulamalarında daha geniş bir değere sahip olabilir.

Örneğin ürün reklamlarında, tek bir model görseli, sadece komut kelimelerini değiştirerek çeşitli ürün videolarının doğrudan üretilmesini sağlayabilir.

Dinamik video üretiminin sergilendiği hareket halindeki koşucu.
Detaylı görsel oluşturmayı vurgulayan cam ürün videosu.

Görüntüden videoya yöntemlerini kullanıyorsanız, mevcut ana akım çözüm ilk ve son kareleri ayarlamak ve efekti mevcut görüntülerle sınırlamaktır. Ayrıca farklı açıları toplamak ve ardından çekim dizisini tamamlamak için malzemeleri birleştirmek için tekrarlanan girişimler gerektirir.

Farklı teknolojilerin özelliklerini video oluşturma iş akışına daha iyi uyacak şekilde birleştirmek "konu referansı" avantajıdır. Gelecekte, pazarlama profesyonellerinin %80'inden fazlası çeşitli aşamalarda üretken araçları kullanacak, yalnızca hikaye ve olay örgüsü tasarımına odaklanacak ve ellerini serbest bırakacak.

Statista'ya göre, reklamcılık ve pazarlamada jeneratif AI ürünlerinin pazar büyüklüğü 15'de 2021 milyar doları aştı. 2028'e kadar bu rakam 107.5 milyar dolara ulaşacak. Önceki iş akışlarında, saf metinden videoya dönüştürme, yaratımın erken aşamaları için uygun olan çok fazla kontrol edilemeyen faktöre sahipti. Avrupa ve Amerika reklamcılık ve pazarlama endüstrilerinde, jeneratif AI zaten çok yaygın, kullanım örneklerinin %52'si taslaklar ve planlama için ve %48'i beyin fırtınası için.

Şu anda Hailuo AI, referans yeteneğini ilk olarak tek bir karakter için açıyor. Gelecekte, Hailuo'nun "Her fikir bir gişe rekorları kıran filmdir" sloganının önerdiği gibi, yaratıcılığı daha da serbest bırakarak birden fazla karaktere, nesneye, sahneye ve daha fazlasına genişleyecek.

MiniMax, Ağustos 2023'te video modelini piyasaya sürdüğünden beri, üretilen görüntülerin kalitesinden ve akıcılığından tutarlılığına ve istikrarına kadar uluslararası alanda çok sayıda kullanıcıyı sürekli olarak cezbetmiş, çok sayıda olumlu geri bildirim ve profesyonel takdir almıştır.

Hailuo AI logosu
Techhalla logosu.

Geçtiğimiz teknolojik rekabet yılında, AI video üretim alanının rekabetçi manzarası ilk olarak ortaya çıktı. Sora'nın uygulaması, video üretiminin potansiyelini gösterdi ve büyük teknoloji şirketlerini bu alana yoğun yatırım yapmaya yöneltti.

Sora'nın 2024 yılı sonunda piyasaya sürülmesinin gecikmesi ve kullanıcı yorumlarının ortalama olması nedeniyle pazar beklentilerini karşılayamadı ve diğer oyunculara pazarı ele geçirme şansı verdi.

Günümüzde, üretken videonun ikinci yarıya girmesiyle birlikte, yalnızca üç şirket gerçek anlamda teknik güç ve geliştirme potansiyeli gösteriyor: MiniMax'ın Hailuo AI'sı, Kuaishou'nun Keling AI'sı ve ByteDance'in Jimeng AI'sı.

Sadece üç yıl önce kurulan bir girişim olarak MiniMax, yalın girişim boyutuyla en üst düzeyde rekabet edebilecek ürünler ve teknolojiler getirdi. Aralık 2'teki I01V-2023-Live image-to-video modelinden yeni S2V-01 modeline kadar, önceki video neslinin zorluklarını çözüyorlar.

Teknoloji olgunlaşmaya ve uygulama senaryoları genişlemeye devam ettikçe, video nesil AI içerik oluşturma, film prodüksiyonu, pazarlama ve iletişimde yeni bir devrime yol açacaktır. Çin'in video nesil AI alanının en üst seviyesini temsil eden bu şirketler yalnızca Çin pazarına liderlik etmekle kalmıyor, aynı zamanda uluslararası devlerle küresel olarak rekabet etmeleri de bekleniyor. Bu arada, teknolojik yeniliği korurken ürün istikrarını ve kontrol edilebilirliğini sağlamak bu işletmeler için sürekli bir zorluk olacaktır.

Kaynaktan ifan

Yasal Uyarı: Yukarıda belirtilen bilgiler Chovm.com'dan bağımsız olarak ifanr.com tarafından sağlanmaktadır. Chovm.com, satıcının ve ürünlerin kalitesi ve güvenilirliği konusunda hiçbir beyan ve garanti vermez. Chovm.com, içeriğin telif hakkıyla ilgili ihlallere ilişkin her türlü sorumluluğu açıkça reddeder.

Leave a Comment

E-posta hesabınız yayımlanmayacak. Gerekli alanlar işaretlenmişlerdir. *

En gidin