AI Video Innovatie: Handsfree Kaartteken Revolutie -

Niet tevreden na het kijken van “Squid Game”? Creëer je eigen einde.

GIF van een aangepast einde van de Squid-game

Kan je niet wachten op “Dune Part Three”? Maak je eigen versie.

Vroeger kostte het veel tijd om consistente karakteruitstralingen te behouden. Nu kan AI met slechts een screenshot films gaan maken.

Dit is te danken aan de "Subject Reference"-functie van Conch AI, aangestuurd door het nieuwe S2V-01-model. Het identificeert het onderwerp nauwkeurig in geüploade afbeeldingen en stelt het in als het personage in gegenereerde video's. De rest is eenvoudig: maak vrij met basisinstructies.

GIF toont nauwkeurige retentie van gezichtsinformatie — _{Gemaakt door X-gebruiker @KarolineGeorges, met nauwkeurige retentie van gezichtsinformatie”}

GIF met diverse onderwerpen — _{Gemaakt door X-gebruiker @Apple_Dog_Sol, waarin diverse onderwerpen worden belicht”}

Voordelen van de functie “Onderwerpreferentie”

Veel bedrijven ontwikkelen functies voor 'Subject Reference', maar niet alle bedrijven kunnen de uitdagingen op het gebied van stabiliteit en samenhang aanpakken, met name het handhaven van consistentie in beweging.

Terwijl anderen misschien moeite hebben, excelleert Conch AI. Met slechts één afbeelding begrijpt het karaktereigenschappen nauwkeurig, identificeert ze als onderwerpen en plaatst ze in verschillende scènes.

Het ene moment redt Spider-Man de wereld, het volgende moment rijdt hij op een motor.

De Moeder der Draken, die in “Game of Thrones” draken zou trainen, speelt nu met een kleine wolf.

De doorbraak in "subject reference" ligt in het bereiken van een balans tussen creatieve vrijheid en getrouwheid. Het is alsof je makers een "universele acteur" geeft wiens uiterlijk niet vervormt maar op natuurlijke wijze verandert met acties en poses, die elke actie in elke scène uitvoert zoals vereist door de regisseur.

Niet zomaar een nieuwe functie, maar een unieke technische oplossing

Uit de daadwerkelijke testervaring blijkt dat het genereren van onderwerpreferenties een andere functie is, met andere technische uitdagingen en vereisten dan het genereren van tekst naar afbeelding of van afbeelding naar afbeelding.

Traditionele image-to-video generatie animeert alleen statische beelden, voornamelijk met gedeeltelijke aanpassingen. Bijvoorbeeld, in deze still van Song Hye-kyo, verandert image-to-video alleen het statische beeld in een dynamisch beeld met beperkt bereik en geen significante bewegingen.

Origineel still van Song Hye-kyo — _{Origineel nog steeds}

Geanimeerde still van Song Hye-kyo — _{Video gegenereerd van afbeelding naar video}

Met dezelfde foto kan met ‘onderwerpreferentie’ een compleet segment worden gemaakt op basis van tekstuele aanwijzingen, waardoor vrije beweging mogelijk is en de gezichtskenmerken stabiel blijven.

Gegenereerde video van Song Hye-kyo — _{Warme binnenverlichting, in een theaterpubliek, de protagonist in een zwart pak, zittend op de middelste rij links. Haar uitdrukking is gefocust, af en toe lichtjes glimlachend, natuurlijk en ritmisch klappend. De camera begint vanaf haar kant, legt silhouetten van andere toeschouwers en de donkere stoeltexturen vast, wat de diepte van de omgeving benadrukt. Terwijl de camera dichterbij komt, staat de protagonist op.}

Er zijn momenteel twee technische routes voor het genereren van video's met een onderwerp. Eén is gebaseerd op LoRA-technologie, die vooraf getrainde grote generatieve modellen verfijnt. LoRA vereist aanzienlijke berekeningen bij het genereren van nieuwe video's, waardoor gebruikers meerdere hoeken van hetzelfde onderwerp moeten uploaden en zelfs verschillende elementen voor elk segment moeten specificeren om de kwaliteit te garanderen. Dit verbruikt ook veel tokens en vereist een lange wachttijd.

Na uitgebreide technische verkenning koos MiniMax een route gebaseerd op beeldreferentie: beelden bevatten de meest accurate visuele informatie, in lijn met de creatieve logica van fysieke opnames. In deze route is de protagonist in de afbeelding de hoogste prioriteit van het model voor herkenning - ongeacht de daaropvolgende scènes of plot, het onderwerp moet consistent blijven.

Andere visuele informatie is opener en wordt gecontroleerd door tekstuele prompts. Deze aanpak bereikt het doel van "precieze reproductie + hoge vrijheid."

Het personage staat voor een draak, zijn haar en jurk wapperen in de wind. — _{Op een open plek in de vallei staat de protagonist voor een draak, zijn lange haar wappert in de wind. De camera zoomt geleidelijk uit en legt vast hoe de protagonist zich omdraait om in de verte te kijken. De vleugels van de draak spreiden zich uit, wapperen in het haar en de jurk van de protagonist, en de scène eindigt met een shot van bovenaf.”}

In deze video werd er slechts één foto van de Dragon Queen aan het model verstrekt. De uiteindelijke gegenereerde video presenteerde nauwkeurig de camerataal en visuele elementen die in de prompt werden genoemd, wat een sterk begrip aantoont.

Vergeleken met de LoRA-oplossing vermindert deze technische aanpak de hoeveelheid materiaal die gebruikers moeten uploaden aanzienlijk, door tientallen videosegmenten om te zetten in één enkele afbeelding. De wachttijd wordt gemeten in seconden, wat vergelijkbaar is met de tijd die nodig is om tekst of afbeeldingen te genereren, door de nauwkeurigheid van afbeelding-naar-video te combineren met de vrijheid van tekst-naar-video.

Hoogtepunten van de Chinese productie, die aan uw meervoudige behoeften voldoet

Meervoudige behoeften zijn geen buitensporige vraag. Alleen door gelijktijdig nauwkeurige en consistente karakterafbeeldingen en vrije beweging te bereiken, kan het model eenvoudige entertainmenttoepassingen overtreffen en bredere waarde hebben in industriële toepassingen.

In productadvertenties kan bijvoorbeeld één modelafbeelding direct verschillende productvideo's genereren door simpelweg de tekstuele boodschap te veranderen.

Hardloper in beweging, demonstratie van dynamische videogeneratie.

Video over glasproducten, met gedetailleerde visuele weergave.

Als u image-to-video-methoden gebruikt, is de huidige gangbare oplossing om de eerste en laatste frames in te stellen, waarbij het effect wordt beperkt door de bestaande afbeeldingen. Het vereist ook herhaalde pogingen om verschillende hoeken te verzamelen en de materialen vervolgens aan elkaar te plakken om een reeks shots te voltooien.

Het combineren van de kenmerken van verschillende technologieën om beter aan te sluiten bij de workflow voor het maken van video's is het voordeel van 'onderwerpreferentie'. In de toekomst zal meer dan 80% van de marketingprofessionals generatieve tools gebruiken in verschillende stadia, waarbij ze zich alleen richten op het bedenken van het verhaal en de plot, waardoor ze hun handen vrij hebben.

Volgens Statista overschreed de marktwaarde van generatieve AI-producten in reclame en marketing in 15 de $ 2021 miljard. In 2028 zal dit aantal $ 107.5 miljard bedragen. In eerdere workflows had pure tekst-naar-video te veel oncontroleerbare factoren, geschikt voor de vroege stadia van creatie. In de Europese en Amerikaanse reclame- en marketingindustrieën is generatieve AI al heel gebruikelijk, met 52% van de use cases voor concepten en planning, en 48% voor brainstormen.

Momenteel opent Hailuo AI eerst de referentiemogelijkheid voor een enkel personage. In de toekomst zal het uitbreiden naar meerdere personages, objecten, scènes en meer, wat de creativiteit verder zal ontketenen, zoals voorgesteld door Hailuo's slogan, "Elk idee is een blockbuster."

Sinds MiniMax het videomodel in augustus 2023 uitbracht, heeft het voortdurend een groot aantal gebruikers internationaal aangetrokken, van de kwaliteit en vloeiendheid van de gegenereerde beelden tot de consistentie en stabiliteit, en heeft het veel positieve feedback en professionele erkenning gekregen.

In het afgelopen jaar van technologische concurrentie is het competitieve landschap van het AI-videogeneratieveld voor het eerst ontstaan. De implementatie van Sora toonde het potentieel van videogeneratie, wat grote technologiebedrijven ertoe aanzette om zwaar te investeren in dit veld.

Door de vertraagde lancering van Sora's product eind 2024 en de matige gebruikersrecensies, voldeed het niet aan de marktverwachtingen. Hierdoor kregen andere spelers de kans om de markt te veroveren.

Nu generatieve video de tweede helft van het jaar ingaat, zijn er slechts drie bedrijven die daadwerkelijk technische kracht en ontwikkelingspotentieel tonen: Hailuo AI van MiniMax, Keling AI van Kuaishou en Jimeng AI van ByteDance.

Als startup die pas drie jaar geleden werd opgericht, heeft MiniMax producten en technologie gebracht die op topniveau kunnen concurreren met zijn slanke startup-formaat. Van het I2V-01-Live image-to-video-model in december 2023 tot het nieuwe S2V-01-model, ze hebben de uitdagingen van de vorige videogeneratie opgelost.

Naarmate de technologie zich verder ontwikkelt en toepassingsscenario's zich uitbreiden, zal videogeneratie-AI een nieuwe revolutie teweegbrengen in contentcreatie, filmproductie, marketing en communicatie. Deze bedrijven, die het hoogste niveau van China's videogeneratie-AI-veld vertegenwoordigen, zijn niet alleen marktleider op de Chinese markt, maar zullen naar verwachting ook wereldwijd concurreren met internationale giganten. Ondertussen zal het garanderen van productstabiliteit en controleerbaarheid, terwijl technologische innovatie behouden blijft, een voortdurende uitdaging zijn voor deze ondernemingen.

Bron van als een

Disclaimer: De hierboven vermelde informatie wordt verstrekt door ifanr.com, onafhankelijk van Chovm.com. Chovm.com geeft geen verklaringen en garanties met betrekking tot de kwaliteit en betrouwbaarheid van de verkoper en producten. Chovm.com wijst uitdrukkelijk elke aansprakelijkheid af voor inbreuken met betrekking tot het auteursrecht op inhoud.

Laatste nieuws

AI Video Innovatie: Handsfree Kaartteken Revolutie

Voordelen van de functie “Onderwerpreferentie”

Niet zomaar een nieuwe functie, maar een unieke technische oplossing

Hoogtepunten van de Chinese productie, die aan uw meervoudige behoeften voldoet

Over de auteur

als een

Laat een bericht achter

Voordelen van de functie “Onderwerpreferentie”

Niet zomaar een nieuwe functie, maar een unieke technische oplossing

Hoogtepunten van de Chinese productie, die aan uw meervoudige behoeften voldoet

Over de auteur

als een

gerelateerde berichten

Laat een bericht achter