Strona główna » Najnowsze wiadomości » Innowacja w zakresie wideo AI: rewolucja w rysowaniu kart bez użycia rąk
Okładka przedstawiająca technologię wideo AI.

Innowacja w zakresie wideo AI: rewolucja w rysowaniu kart bez użycia rąk

Nie jesteś zadowolony po obejrzeniu „Squid Game”? Stwórz własne zakończenie.

Obraz z gry Squid
GIF przedstawiający niestandardowe zakończenie gry Squid

Nie możesz się doczekać „Dune Part Three”? Stwórz własną wersję.

Obraz z Diuny
GIF przedstawiający niestandardową scenę z Diuny

Wcześniej utrzymanie spójnego wyglądu postaci wymagało znacznej ilości czasu. Teraz, mając tylko zrzut ekranu, AI może zacząć tworzyć filmy.

Dzieje się tak dzięki funkcji „Subject Reference” Conch AI, obsługiwanej przez nowy model S2V-01. Dokładnie identyfikuje ona obiekt na przesłanych obrazach i ustawia go jako postać w generowanych filmach. Reszta jest prosta: twórz swobodnie, korzystając z podstawowych instrukcji.

GIF pokazujący dokładne zapamiętywanie informacji o twarzy
Utworzone przez użytkownika X @KarolineGeorges, z precyzyjnym zachowaniem informacji o twarzy”
GIF przedstawiający różne tematy
Stworzone przez użytkownika X @Apple_Dog_Sol, prezentujące różnorodne tematy”

Zalety funkcji „Odniesienie do tematu”

Wiele firm opracowuje funkcje „Subject Reference”, ale nie wszystkie potrafią sprostać wyzwaniom stabilności i spójności, zwłaszcza zachowaniu spójności ruchu.

Podczas gdy inni mogą mieć problemy, Conch AI góruje. Przy użyciu tylko jednego obrazu dokładnie rozumie cechy charakteru, identyfikuje je jako podmioty i umieszcza w różnych scenach.

W jednej chwili Spider-Man ratuje świat, w drugiej jedzie na motocyklu.

Pająk na sieci

Pająk poruszający się po sieci

Matka Smoków, która powinna szkolić smoki w „Grze o tron”, teraz bawi się z małym wilkiem.

Matka Smoków z wilkiem
Matka Smoków bawiąca się z wilkiem

Przełom w „odniesieniu do tematu” polega na osiągnięciu równowagi między wolnością twórczą a wiernością. To tak, jakby dać twórcom „uniwersalnego aktora”, którego wygląd nie zniekształca się, ale naturalnie zmienia się wraz z działaniami i pozami, wykonującego dowolną czynność w dowolnej scenie zgodnie z wymaganiami reżysera.

Nie tylko nowa funkcja, ale unikalne rozwiązanie techniczne

Rzeczywiste doświadczenia testowe pokazują, że odniesienie do tematu to zupełnie inna funkcja, wymagająca innych wyzwań technicznych i wymagań niż generowanie tekstu na obraz lub obrazu na obraz.

Tradycyjne generowanie obrazu do wideo animuje tylko obrazy statyczne, głównie z częściowymi modyfikacjami. Na przykład w tym kadrze Song Hye-kyo, obraz do wideo zamienia tylko obraz statyczny w obraz dynamiczny o ograniczonym zakresie i bez znaczących ruchów.

Oryginalne zdjęcie Song Hye-kyo
Oryginalny obraz
Animowany obraz Song Hye-kyo
Wideo wygenerowane z obrazu do wideo

Przy użyciu tego samego zdjęcia „odniesienie do tematu” może utworzyć kompletny segment w oparciu o podpowiedzi tekstowe, umożliwiając swobodne poruszanie się przy jednoczesnym zachowaniu stabilnych rysów twarzy.

Wygenerowany film Song Hye-kyo
Ciepłe oświetlenie w pomieszczeniu, widownia teatralna, protagonistka w czarnym garniturze, siedząca w środku rzędu po lewej stronie. Jej wyraz twarzy jest skupiony, od czasu do czasu lekko się uśmiecha, klaska naturalnie i rytmicznie. Kamera zaczyna od jej boku, uchwytując sylwetki innych członków widowni i przyciemnione tekstury siedzeń, podkreślając głębię otoczenia. Gdy kamera się zbliża, protagonistka wstaje.

Obecnie istnieją dwie techniczne drogi generowania filmów z tematem. Jedna opiera się na technologii LoRA, która dostraja wstępnie wytrenowane duże modele generatywne. LoRA wymaga znacznych obliczeń podczas generowania nowych filmów, zmuszając użytkowników do przesyłania wielu ujęć tego samego tematu, a nawet określania różnych elementów dla każdego segmentu w celu zapewnienia jakości. To również pochłania wiele tokenów i wymaga długiego czasu oczekiwania.

Po rozległych badaniach technicznych MiniMax wybrało ścieżkę opartą na odniesieniu do obrazu: obrazy zawierają najdokładniejsze informacje wizualne, zgodne z kreatywną logiką fizycznego fotografowania. W tej ścieżce główny bohater obrazu jest najwyższym priorytetem modela do rozpoznania — niezależnie od kolejnych scen lub fabuły, temat musi pozostać spójny.

Inne informacje wizualne są bardziej otwarte i kontrolowane przez podpowiedzi tekstowe. Takie podejście osiąga cel „precyzyjnej reprodukcji + dużej swobody”.

Matka Smoków ze smokiem
Bohater stoi przed smokiem, a jego włosy i suknia powiewają na wietrze.
Na polanie w dolinie bohater stoi przed smokiem, którego długie włosy powiewają na wietrze. Kamera stopniowo się oddala, ukazując bohatera odwracającego się, by spojrzeć w dal. Skrzydła smoka rozpościerają się, rozwiewając włosy i sukienkę bohatera, a scena kończy się ujęciem z góry.

W tym filmie tylko jedno zdjęcie Królowej Smoków zostało dostarczone modelowi. Ostatecznie wygenerowany film dokładnie przedstawił język kamery i elementy wizualne wymienione w monicie, wykazując silne zrozumienie.

W porównaniu z rozwiązaniem LoRA, to podejście techniczne znacznie zmniejsza ilość materiału, który użytkownicy muszą przesłać, przekształcając dziesiątki segmentów wideo w jeden obraz. Czas oczekiwania jest mierzony w sekundach, co wydaje się podobne do czasu potrzebnego na wygenerowanie tekstu lub obrazów — łącząc dokładność obrazu do wideo ze swobodą tekstu do wideo.

Najważniejsze cechy chińskiej produkcji, spełniające Twoje różnorodne potrzeby

Wielorakie potrzeby nie są nadmiernym żądaniem. Tylko poprzez jednoczesne osiągnięcie dokładnych i spójnych obrazów postaci oraz swobodnego ruchu model może przewyższyć proste zastosowania rozrywkowe i mieć szerszą wartość w zastosowaniach przemysłowych.

Na przykład w reklamach produktów pojedynczy obraz modela może bezpośrednio generować różne filmy o produkcie poprzez prostą zmianę słów podpowiedzi.

Biegacz w ruchu, prezentujący dynamiczne generowanie wideo.
Film prezentujący produkt szklany, przedstawiający szczegółowe generowanie wizualizacji.

Jeśli stosuje się metody image-to-video, obecnym głównym rozwiązaniem jest ustawienie pierwszej i ostatniej klatki, przy czym efekt jest ograniczony przez istniejące obrazy. Wymaga to również powtarzających się prób zebrania różnych kątów, a następnie zszycia materiałów, aby ukończyć sekwencję ujęć.

Łączenie cech różnych technologii w celu lepszego dopasowania do przepływu pracy tworzenia wideo jest zaletą „odniesienia do tematu”. W przyszłości ponad 80% specjalistów ds. marketingu będzie używać narzędzi generatywnych na różnych etapach, skupiając się wyłącznie na koncepcji historii i fabuły, uwalniając swoje ręce.

Według Statista, wielkość rynku produktów generatywnej AI w reklamie i marketingu przekroczyła 15 miliardów dolarów w 2021 roku. Do 2028 roku liczba ta osiągnie 107.5 miliarda dolarów. W poprzednich przepływach pracy czysty tekst do wideo miał zbyt wiele niekontrolowanych czynników, odpowiednich na wczesnych etapach tworzenia. W europejskiej i amerykańskiej branży reklamowej i marketingowej generatywna AI jest już bardzo powszechna, z 52% przypadków użycia dla szkiców i planowania oraz 48% dla burzy mózgów.

Obecnie Hailuo AI najpierw otwiera możliwość odniesienia dla pojedynczej postaci. W przyszłości rozszerzy się na wiele postaci, obiektów, scen i więcej, uwalniając kreatywność, zgodnie z hasłem Hailuo: „Każdy pomysł jest przebojem”.

Od czasu, gdy w sierpniu 2023 r. firma MiniMax wypuściła model wideo, nieprzerwanie przyciąga on rzesze użytkowników z całego świata, zachwycając się jakością i płynnością generowanych obrazów, spójnością i stabilnością. Produkt ten zebrał wiele pozytywnych opinii i zdobył uznanie profesjonalistów.

Logo Hailuo AI
Logo Techhalli.

W ubiegłym roku konkurencji technologicznej początkowo wyłonił się krajobraz konkurencyjny w dziedzinie generowania wideo AI. Implementacja Sora pokazała potencjał generowania wideo, co skłoniło duże firmy technologiczne do dużych inwestycji w tę dziedzinę.

Opóźniona premiera produktu Sora pod koniec 2024 r. i przeciętne recenzje użytkowników sprawiły, że produkt ten nie spełnił oczekiwań rynku, dając innym graczom szansę na przejęcie rynku.

Teraz, gdy branża generatywnego wideo wkracza w drugą połowę roku, tylko trzy firmy wykazują prawdziwą siłę techniczną i potencjał rozwojowy: Hailuo AI firmy MiniMax, Keling AI firmy Kuaishou i Jimeng AI firmy ByteDance.

Jako startup założony zaledwie trzy lata temu, MiniMax wprowadził produkty i technologie, które mogą konkurować na najwyższym poziomie dzięki swojej szczupłej wielkości startupu. Od modelu obrazu-wideo I2V-01-Live w grudniu 2023 r. do nowego modelu S2V-01, rozwiązywali wyzwania poprzedniej generacji wideo.

W miarę jak technologia dojrzewa, a scenariusze zastosowań się rozszerzają, sztuczna inteligencja generacji wideo zapoczątkuje nową rewolucję w tworzeniu treści, produkcji filmowej, marketingu i komunikacji. Te firmy, reprezentujące najwyższy poziom chińskiej dziedziny sztucznej inteligencji generacji wideo, nie tylko przewodzą chińskiemu rynkowi, ale oczekuje się również, że będą konkurować globalnie z międzynarodowymi gigantami. Tymczasem zapewnienie stabilności i kontroli produktu przy jednoczesnym zachowaniu innowacyjności technologicznej będzie ciągłym wyzwaniem dla tych przedsiębiorstw.

Źródło z ifanra

Zastrzeżenie: Informacje podane powyżej są dostarczane przez ifanr.com, niezależnie od Chovm.com. Chovm.com nie składa żadnych oświadczeń ani gwarancji co do jakości i niezawodności sprzedawcy i produktów. Chovm.com wyraźnie zrzeka się wszelkiej odpowiedzialności za naruszenia dotyczące praw autorskich do treści.

Zostaw komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *