KI-Video-Innovation: Revolution beim freihändigen Kartenzeichnen -

Sie sind nach dem Ansehen von „Squid Game“ noch nicht zufrieden? Erfinden Sie Ihr eigenes Ende.

GIF eines benutzerdefinierten Squid Game-Endes

Sie können „Dune Teil 3“ kaum erwarten? Erstellen Sie Ihre eigene Version.

GIF einer benutzerdefinierten Dune-Szene

Früher war es sehr zeitaufwändig, das Erscheinungsbild der Charaktere einheitlich zu halten. Jetzt reicht ein Screenshot, und KI kann mit der Erstellung von Filmen beginnen.

Dies ist der „Subject Reference“-Funktion von Conch AI zu verdanken, die auf dem neuen Modell S2V-01 basiert. Sie identifiziert das Motiv in hochgeladenen Bildern präzise und legt es als Figur in generierten Videos fest. Der Rest ist einfach: Erstellen Sie frei mit grundlegenden Anweisungen.

GIF, das die präzise Speicherung von Gesichtsinformationen zeigt — _{Erstellung durch X-Benutzer @KarolineGeorges, mit präziser Speicherung der Gesichtsinformationen“}

GIF mit verschiedenen Motiven — _{Kreation von X-Benutzer @Apple_Dog_Sol, präsentiert verschiedene Themen“}

Vorteile der Funktion „Betreffreferenz“

Viele Unternehmen entwickeln „Subject Reference“-Funktionen, aber nicht alle sind den Herausforderungen hinsichtlich Stabilität und Kohärenz gewachsen, insbesondere was die Aufrechterhaltung der Bewegungskonsistenz betrifft.

Während andere damit zu kämpfen haben, ist Conch AI herausragend. Mit nur einem Bild erkennt es Charakterzüge präzise, identifiziert sie als Subjekte und platziert sie in verschiedenen Szenen.

In einem Moment rettet Spider-Man die Welt, im nächsten fährt er Motorrad.

Die Mutter der Drachen, die in „Game of Thrones“ Drachen trainieren sollte, spielt jetzt mit einem kleinen Wolf.

Mutter der Drachen spielt mit einem Wolf

Der Durchbruch bei der „Themareferenz“ liegt darin, ein Gleichgewicht zwischen kreativer Freiheit und Treue zu erreichen. Es ist, als ob man den Schöpfern einen „Universalschauspieler“ gibt, dessen Erscheinungsbild sich nicht verzerrt, sondern sich mit Aktionen und Posen auf natürliche Weise verändert und jede Aktion in jeder Szene ausführt, wie es der Regisseur verlangt.

Nicht nur eine neue Funktion, sondern eine einzigartige technische Lösung

Die tatsächliche Testerfahrung zeigt, dass der Subjektbezug im Vergleich zur Text-zu-Bild- oder Bild-zu-Bild-Generierung eine andere Funktion mit anderen technischen Herausforderungen und Anforderungen darstellt.

Bei der herkömmlichen Bild-zu-Video-Generierung werden nur statische Bilder animiert, meist mit partiellen Änderungen. In diesem Standbild von Song Hye-kyo beispielsweise wird bei der Bild-zu-Video-Generierung das statische Bild nur in ein dynamisches Bild mit begrenzter Reichweite und ohne nennenswerte Bewegungen umgewandelt.

Originalstandbild von Song Hye-kyo — _{Original-Standbild}

Animiertes Standbild von Song Hye-kyo — _{Aus Bild-zu-Video generiertes Video}

Mit demselben Foto kann durch „Motivreferenz“ ein komplettes Segment auf der Grundlage von Textaufforderungen erstellt werden, das freie Bewegungen unter Beibehaltung stabiler Gesichtszüge ermöglicht.

Generiertes Video von Song Hye-kyo — _{Warme Innenbeleuchtung, in einem Theaterpublikum, die Protagonistin in einem schwarzen Anzug sitzt in der linken Mittelreihe. Ihr Gesichtsausdruck ist konzentriert, gelegentlich lächelt sie leicht und klatscht natürlich und rhythmisch. Die Kamera beginnt an ihrer Seite und fängt die Silhouetten anderer Zuschauer und die dunklen Sitzstrukturen ein, wodurch die Tiefe der Umgebung betont wird. Als die Kamera näher kommt, steht die Protagonistin auf.}

Derzeit gibt es zwei technische Möglichkeiten, Videos mit einem Thema zu generieren. Eine davon basiert auf der LoRA-Technologie, die vorab trainierte große generative Modelle fein abstimmt. LoRA erfordert bei der Generierung neuer Videos einen erheblichen Rechenaufwand, sodass Benutzer mehrere Winkel desselben Themas hochladen und sogar für jedes Segment unterschiedliche Elemente angeben müssen, um die Qualität sicherzustellen. Dies verbraucht auch viele Token und erfordert eine lange Wartezeit.

Nach umfangreichen technischen Untersuchungen entschied sich MiniMax für einen Weg, der auf Bildreferenzen basiert: Bilder enthalten die genauesten visuellen Informationen und entsprechen der kreativen Logik des physischen Fotografierens. Bei diesem Weg ist der Protagonist im Bild die oberste Priorität des Modells für die Wiedererkennung – unabhängig von den nachfolgenden Szenen oder der Handlung muss das Motiv konsistent bleiben.

Andere visuelle Informationen sind offener und werden durch Textaufforderungen gesteuert. Mit diesem Ansatz wird das Ziel „präzise Wiedergabe + hohe Freiheit“ erreicht.

Die Figur steht vor einem Drachen, dessen Haare und Kleid im Wind wehen. — _{Auf einer Lichtung im Tal steht der Protagonist vor einem Drachen, dessen langes Haar im Wind weht. Die Kamera zoomt allmählich heraus und fängt ein, wie sich der Protagonist umdreht und in die Ferne blickt. Die Flügel des Drachens breiten sich aus und wehen durch das Haar und das Kleid des Protagonisten, und die Szene endet mit einer Aufnahme von oben.“}

In diesem Video wurde dem Modell nur ein Bild der Drachenkönigin zur Verfügung gestellt. Das endgültig generierte Video stellte die in der Eingabeaufforderung erwähnte Kamerasprache und die visuellen Elemente genau dar und zeigte ein starkes Verständnis.

Im Vergleich zur LoRA-Lösung reduziert dieser technische Ansatz die Menge an Material, die Benutzer hochladen müssen, erheblich, indem Dutzende von Videosegmenten in ein einziges Bild umgewandelt werden. Die Wartezeit wird in Sekunden gemessen und fühlt sich ähnlich an wie die Zeit, die zum Generieren von Text oder Bildern benötigt wird – und kombiniert die Genauigkeit von Bild-zu-Video mit der Freiheit von Text-zu-Video.

Highlights der chinesischen Fertigung, die Ihren vielfältigen Anforderungen gerecht werden

Mehrere Anforderungen sind keine Überforderung. Nur durch die gleichzeitige Erzielung präziser und konsistenter Charakterbilder und freier Bewegung kann das Modell über einfache Unterhaltungsanwendungen hinausgehen und einen breiteren Wert in Industrieanwendungen erreichen.

Beispielsweise können in der Produktwerbung aus einem einzigen Modelbild durch einfaches Ändern der Stichwortwörter direkt verschiedene Produktvideos generiert werden.

Läufer in Bewegung, Vorführung dynamischer Videogenerierung.

Glasproduktvideo mit Hervorhebung der detaillierten visuellen Erzeugung.

Bei der Verwendung von Bild-zu-Video-Methoden besteht die derzeit gängige Lösung darin, das erste und das letzte Bild festzulegen, wobei der Effekt durch die vorhandenen Bilder begrenzt wird. Außerdem sind wiederholte Versuche erforderlich, verschiedene Winkel aufzunehmen und das Material dann zusammenzufügen, um eine Aufnahmesequenz zu vervollständigen.

Der Vorteil der „Themenreferenz“ liegt darin, dass die Eigenschaften verschiedener Technologien kombiniert werden, um sie besser an den Workflow der Videoerstellung anzupassen. In Zukunft werden über 80 % der Marketingfachleute in verschiedenen Phasen generative Tools verwenden und sich nur auf die Konzeption von Story und Handlung konzentrieren, um mehr Handlungsspielraum zu haben.

Laut Statista überstieg die Marktgröße von generativen KI-Produkten in Werbung und Marketing im Jahr 15 2021 Milliarden US-Dollar. Bis 2028 wird diese Zahl 107.5 Milliarden US-Dollar erreichen. In früheren Arbeitsabläufen hatte reines Text-to-Video zu viele unkontrollierbare Faktoren und war für die frühen Phasen der Erstellung geeignet. In der europäischen und amerikanischen Werbe- und Marketingbranche ist generative KI bereits sehr verbreitet, mit 52 % der Anwendungsfälle für Entwürfe und Planungen und 48 % für Brainstorming.

Derzeit ermöglicht Hailuo AI zunächst die Referenzfunktion für einen einzelnen Charakter. In Zukunft wird die Funktion auf mehrere Charaktere, Objekte, Szenen und mehr ausgeweitet, um der Kreativität noch mehr freien Lauf zu lassen, ganz im Sinne des Hailuo-Slogans „Jede Idee ist ein Blockbuster.“

Seit MiniMax das Videomodell im August 2023 herausgebracht hat, hat es kontinuierlich eine große Anzahl von Benutzern auf der ganzen Welt angezogen, von der Qualität und Glätte der generierten Bilder bis hin zur Konsistenz und Stabilität, und hat viel positives Feedback und professionelle Anerkennung erhalten.

Im vergangenen Jahr des technologischen Wettbewerbs hat sich erstmals die Wettbewerbslandschaft im Bereich der KI-Videogenerierung herausgebildet. Die Implementierung von Sora zeigte das Potenzial der Videogenerierung und veranlasste große Technologieunternehmen, massiv in diesen Bereich zu investieren.

Mit der verspäteten Markteinführung des Sora-Produkts auf Ende 2024 und durchschnittlichen Nutzerbewertungen konnte es die Markterwartungen nicht erfüllen, was anderen Akteuren die Chance gab, den Markt zu erobern.

Jetzt, da generatives Video in die zweite Hälfte geht, zeigen nur drei Unternehmen wirkliche technische Stärke und Entwicklungspotenzial: Hailuo AI von MiniMax, Keling AI von Kuaishou und Jimeng AI von ByteDance.

Als erst vor drei Jahren gegründetes Startup hat MiniMax trotz seiner schlanken Startup-Größe Produkte und Technologien auf den Markt gebracht, die auf höchstem Niveau konkurrieren können. Vom Bild-zu-Video-Modell I2V-01-Live im Dezember 2023 bis zum neuen Modell S2V-01 haben sie die Herausforderungen der vorherigen Videogeneration gelöst.

Da die Technologie immer ausgereifter wird und die Anwendungsszenarien erweitert werden, wird die KI bei der Videogenerierung eine neue Revolution in der Inhaltserstellung, Filmproduktion, im Marketing und in der Kommunikation auslösen. Diese Unternehmen, die das höchste Niveau der KI bei der Videogenerierung in China repräsentieren, führen nicht nur den chinesischen Markt an, sondern werden voraussichtlich auch weltweit mit internationalen Giganten konkurrieren. Gleichzeitig wird es für diese Unternehmen eine ständige Herausforderung sein, die Produktstabilität und -steuerbarkeit sicherzustellen und gleichzeitig die technologische Innovation aufrechtzuerhalten.

Quelle aus wenn ein

Haftungsausschluss: Die oben aufgeführten Informationen werden von ifanr.com unabhängig von Chovm.com bereitgestellt. Chovm.com übernimmt keine Zusicherungen und Gewährleistungen hinsichtlich der Qualität und Zuverlässigkeit des Verkäufers und der Produkte. Chovm.com lehnt ausdrücklich jegliche Haftung für Verstöße gegen das Urheberrecht von Inhalten ab.

Aktuelle Nachrichten

KI-Video-Innovation: Revolution beim freihändigen Kartenzeichnen

Vorteile der Funktion „Betreffreferenz“

Nicht nur eine neue Funktion, sondern eine einzigartige technische Lösung

Highlights der chinesischen Fertigung, die Ihren vielfältigen Anforderungen gerecht werden

Über den Autor

wenn ein

Hinterlasse einen Kommentar

Vorteile der Funktion „Betreffreferenz“

Nicht nur eine neue Funktion, sondern eine einzigartige technische Lösung

Highlights der chinesischen Fertigung, die Ihren vielfältigen Anforderungen gerecht werden

Über den Autor

wenn ein

Verwandte Artikel

Hinterlasse einen Kommentar