Konsistenz in KI-generierten Videos zu erreichen, war schon immer eine Herausforderung. Während die Erstellung virtueller Modelle und Kleidung unkompliziert ist, bleibt die Erstellung eines Videos, in dem Elon Musk einen Pelzmantel vorführt, eine komplexe Aufgabe.
Das kürzlich aktualisierte Modell 2.0 von Pika bietet eine clevere Lösung: Durch das Hochladen mehrerer Fotos kann Pika auf bestimmte Elemente verweisen, um Videos mit bemerkenswerter Genauigkeit zu erstellen.
Durch die Bereitstellung von Fotos von Personen, Produkten und Einstellungen können Benutzer ein einfaches Werbevideo erstellen, dessen visuelle Elemente weitgehend mit den Originalbildern übereinstimmen.
Bedeutet dies, dass KI die Videokonsistenz gelöst hat und Werbetreibende vor neue Herausforderungen stellt? Nicht ganz. Pika macht zwar Spaß, aber in puncto Praktikabilität besteht noch Verbesserungsbedarf.
Unwirkliche Szenen mit Pika erstellen
Pikas Funktion zur Eingabe mehrerer Bilder, genannt „Scene Ingredients“, ermöglicht es Benutzern, Fotos zu kombinieren und einzigartige Szenarien zu erstellen. Und so funktioniert es:
- Laden Sie bis zu sechs Bilder hoch, indem Sie auf die Schaltfläche „+“ klicken.
- Fügen Sie im Textfeld eine einfache Eingabeaufforderung hinzu.
Lassen wir beispielsweise Elon Musk und Ultraman gemeinsam einen Film ansehen. Stichwort: Zwei Personen sitzen in einem dunklen Kinosaal, halten Popcorn in der Hand und starren voller Vorfreude auf die Leinwand …
Laden Sie einfach ihre Fotos hoch und die Theaterumgebung wird aus der Eingabeaufforderung erstellt. Während Elon Musk realistisch aussieht, wirkt Ultramans Aussehen übertrieben und vom Originalfoto abgekoppelt.
Ein herausragendes Merkmal von Pika ist die Möglichkeit, Elemente „wiederzuverwenden“. Wir können beispielsweise Musk und Ultraman in passende grüne Mäntel kleiden und ein Mode-Fotoshooting erstellen.
Die Fotos der beiden Personen stammen beide aus vorgefertigten Bildern. Der grüne Mantel und der eisige, schneebedeckte Hintergrund wurden separat mithilfe von KI generiert, wobei der Text „AIGC“ auf dem Mantel als Herausforderung für Pika diente.
Das Ergebnis zeigte eine anständige Übereinstimmung zwischen der Szene und dem Mantel, und der Text „AIGC“ war schwach erkennbar. Auch die Posen der Models folgten den Anweisungen. Aber das größte Problem ist, wer sind diese beiden Personen? Die Gesichter im Video und auf den Fotos sind vielleicht nicht identisch, aber sie haben überhaupt nichts miteinander zu tun.
Als Nächstes testeten wir Pikas Outfit-Anpassung, indem wir ein schwarzes T-Shirt mit dem Spruch „Ich war ein Mensch“ erstellten. Wir fügten ein Foto von Mark Zuckerberg und ein Foto einer Ukulele hinzu, um eine musikalische Darbietung zu erstellen.
Pika folgte der Anweisung gut und die Kamerabewegung war flüssig. Auch die Kleidung wurde nahtlos angezogen, aber die rechte Hand, insbesondere der Daumen, ist immer noch nicht perfekt.
Im Vergleich zu Google Veo und OpenAI Sora ist Pikas Modell nicht erstklassig. Das Lösen eines Problems bringt oft weitere Fehler ans Licht.
Nachdem wir einen realistischen Stil ausprobiert haben, wechseln wir zu einem Anime-Stil. Um Gintoki Sakata und Naruto Uzumaki im selben Rahmen zu haben, wähle ich zwei Bilder mit blauem Himmel und weißen Wolken als Hintergrund.
Der Hintergrund fügt sich natürlich ein und die Ausdrücke sind gut eingefangen, wobei der Windeffekt auf Haar und Kleidung gut passt. Der Dreheffekt ist jedoch ziemlich beunruhigend. Gintokis Augen wirken leblos und rollen nicht wirklich zurück.
Sie können auch berühmte Gemälde über verschiedene Epochen hinweg interagieren lassen – wie Mona Lisa und das Mädchen mit dem Perlenohrring, das bei McDonald's Pommes frites isst. Der Effekt ist nicht ideal. Beim Anblick von Mona Lisa fragt man sich, ob Da Vinci sich im Grab umdrehen würde. Die Figuren sehen aus wie Aufkleber, die im Video platziert wurden, mit seltsamen Kopfbewegungen.
Manchmal führt die Rückkehr zur Einfachheit zu unerwartet guten Ergebnissen. Wenn Sie beispielsweise ein Starbucks-Bild und ein Seerosen-Gemälde von Monet hochladen, entsteht eine „lotusähnliche“ Kaffeetasse.
Im Wettbewerb mit in China hergestellten Modellen ist die Steuerung von KI-Videos jetzt einfacher
In gewissem Maße hat Pika die Videosteuerbarkeit verbessert. Obwohl dies nicht ganz gelungen ist, behält Pika, wie sich in der Praxis zeigt, die Konsistenz von Szenen, Kleidung und Objekten bei, Gesichter neigen jedoch unabhängig vom Stil zur Verzerrung.
Darüber hinaus müssen Pikas grundlegende Fähigkeiten verbessert werden. Aktionen wie Essen oder Klavierspielen stellen immer noch Herausforderungen dar. Können diese Probleme durch das Ziehen von Karten gemildert werden?
In drei Worten: nicht erschwinglich. Pika 2.0 ist derzeit nur für Pro- und Fancy-Benutzer verfügbar und kostet mindestens 35 US-Dollar pro Monat, ohne kostenlose Testversion. Darüber hinaus erhalten Pro-Benutzer nur 2000 Punkte pro Monat, aber die Verwendung der Funktion „Szenenzutaten“ kostet 100 Punkte pro Video.
Tatsächlich hat das in China entwickelte KI-Videomodell Vidu die Funktion „Mehrbildreferenz“ früher implementiert als Pika. Es ist für Benutzer attraktiver, da es kostenlose Testpunkte bietet.
Ich habe einige von Pikas Hüllen auf Vidu getestet. Mona Lisa und das Mädchen mit dem Perlenohrring beim Pommesessen sehen aus, als wären sie gerade aus dem Boden gestiegen, aber Mona Lisa sieht besser aus als Pikas.
Elon Musk und Ultraman schauen sich gemeinsam einen Film an. Musks Gesicht ist zu 70–80 % originalgetreu, aber Ultramans Gesicht ist immer noch nicht so toll.
Gintoki Sakata und Naruto Uzumaki im selben Rahmen. Vidu kann aus einer Vorderseite eine Seitenansicht generieren, aber der Stil unterscheidet sich vom Originalbild.
Darüber hinaus hat Vidu im Vergleich zu Pika eine Einschränkung: Es können maximal drei Bilder hochgeladen werden. Als ich Vidu also für ein Modeshooting für Musk und Ultraman verwendete, lud ich nur ihre Fotos und einen grünen Mantel hoch und ließ den Hintergrund weg.
Die Ergebnisse fühlten sich ungewohnt an. Es ist klar, dass die Aufrechterhaltung der Gesichtsstabilität immer noch eine Herausforderung darstellt.
Beim Vergleich von Vidu und Pika können die Meinungen auseinander gehen. Pika verwendet eine professionelle Version, während Vidu eine kostenlose Version verwendet, was einige Unterschiede erklärt. Der Ansatz von Pika und Vidu ist jedoch ähnlich – sie verwenden nur wenige Bildmaterialien und einfache Eingabeaufforderungen, um relativ stabile Objekte zu generieren.
Bei der KI-Videogenerierung wird die Wahrung der Motivkonsistenz derzeit mit der LoRA-Lösung zuverlässiger erreicht. Dabei wird das Modell mit einer bestimmten Menge an spezifischem Motivmaterial fein abgestimmt. Mit ausreichend Material und Training lernt das Modell nach und nach die Erscheinungsmerkmale der Figur.
Um KI-Videos zugänglicher und kommerziell wertvoller zu machen, müssen die Einstiegshürden jedoch gesenkt werden. Zumindest bei Vidu und Pika sehen wir das Potenzial.
Mit KI-Kurzvideos viral gehen: Ein One-Way-Ticket zur Kreativität
Kurz nach der Veröffentlichung des Pikas 2.0-Modells hatten internationale Benutzer bereits viel Spaß. Indem sie wiederholt Videos in verschiedenen Szenen mit ihren eigenen Fotos erstellten, konnten sie „sofortige Reisen ins Universum“ unternehmen. Dank KI ist das Anprobieren von Kleidung nur einen Klick entfernt. Modelle und Outfits passen nahtlos zusammen, wodurch die Kosten für echte Shootings gespart werden.
Beim Herumspielen mit Pika fühlte es sich für mich ähnlich an wie beim Spielen von „QQ Show“ und „Die Sims“, wo wir entscheiden, wie wir die Figuren im Video anziehen.
Wenn Sie Musks „Traum“ erfüllen möchten, ist das ganz einfach. Verwenden Sie zunächst andere KI-Tools, um ein „Conquer Mars“-T-Shirt und eine rote Mütze mit der Aufschrift „MAGA“ zu erstellen.
Laden Sie dann diese Bilder, eine Marsszene, ein Foto von Musk, seinen humanoiden Roboter Optimus Prime und den Prototyp seines Lieblings-Internet-Memes, Doge, auf Pika hoch.
Am Ende erscheint ein fröhlicher und heiterer junger Mann, mit einem Hund auf der linken Seite und einem Roboter auf der rechten, der freundlich aussieht, aber nicht ganz wie Musk ist.
Ob es ihm ähnlich sieht oder nicht, ist eine Sache; solange Sie unvoreingenommen bleiben, sind die Möglichkeiten endlos. Mit Fotos von uns selbst und Prominenten können wir ganz einfach Fan werden. Wir können Hüte, Kleidung und Instrumente hochladen, um uns von Kopf bis Fuß einzukleiden. Sammeln Sie Szenen, Produkte und Modelle, und schon haben Sie ein einfaches Werbevideo …
Fotos + KI-Bilder + Pika 2.0 + Eingabeaufforderungen können viele interessante visuelle Elemente erzeugen. Diese Methode vermeidet auch einige der Mängel von Videomodellen, wie z. B. das Schreiben, die mit Bildmodellen gelöst werden können. Ohne direkt mit den Modellfunktionen von Google zu konkurrieren oder mit den Hollywood-Träumen von Runway verglichen zu werden, hat Pika seinen einzigartigen Ansatz.
Pika war schon immer ein Meister der Kreativität. Die vorherige Serie von KI-Spezialeffekten, Pikaffect, ging auf Plattformen wie RedNote und TikTok viral und ließ Pikas Nutzerbasis auf über 11 Millionen ansteigen.
Pika hat eine Benutzergruppe mit einem hohen Bedarf an unterhaltsamen Kurzvideos angesprochen. Auch wenn diese Videos nach Schema F und flüchtig sind, werden die Leute sie sich ansehen, solange sie Spaß machen.
Wer sagt, dass es beim Gewinnen darauf ankommt, alles zu nehmen? Der KI-Markt ist riesig und während die Simulation der physischen Welt ein großer Traum ist, ist das Erreichen des kleinen Ziels, kurze KI-Videos unterhaltsam zu gestalten, ebenfalls eine Form des Erfolgs.
Quelle aus wenn ein
Haftungsausschluss: Die oben aufgeführten Informationen werden von ifanr.com unabhängig von Chovm.com bereitgestellt. Chovm.com übernimmt keine Zusicherungen und Gewährleistungen hinsichtlich der Qualität und Zuverlässigkeit des Verkäufers und der Produkte. Chovm.com lehnt ausdrücklich jegliche Haftung für Verstöße gegen das Urheberrecht von Inhalten ab.