Ottenere coerenza nei video generati dall'intelligenza artificiale è sempre stato impegnativo. Mentre generare modelli e vestiti virtuali è semplice, creare un video in cui Elon Musk indossa una pelliccia rimane un compito complesso.
Il modello 2.0 di Pika, recentemente aggiornato, offre una soluzione intelligente: caricando più foto, Pika può fare riferimento a elementi specifici per generare video con notevole precisione.
Fornendo foto di persone, prodotti e ambientazioni, gli utenti possono creare un video commerciale di base in cui gli elementi visivi corrispondono molto alle immagini originali.
Ciò significa che l'IA ha risolto il problema della coerenza video, creando nuove sfide per gli inserzionisti? Non proprio. Sebbene Pika sia divertente da usare, la sua praticità ha ancora margini di miglioramento.
Creare scene irreali con Pika
La funzionalità di input multi-immagine di Pika, chiamata "Scene Ingredients", consente agli utenti di combinare foto e generare scenari unici. Ecco come funziona:
- Carica fino a sei immagini cliccando sul pulsante “+”.
- Aggiungere un semplice messaggio nella casella di testo.
Per esempio, facciamo guardare un film insieme a Elon Musk e Ultraman. Suggerimento: due persone sono sedute in un cinema buio, con in mano dei popcorn e sono concentrate sullo schermo con trepidazione…
Basta caricare le loro foto e l'ambiente del teatro viene creato dal prompt. Mentre Elon Musk sembra realistico, l'aspetto di Ultraman sembra esagerato e disconnesso dalla foto originale.
Una caratteristica distintiva di Pika è la sua capacità di "riutilizzare" gli elementi. Ad esempio, possiamo vestire Musk e Ultraman con cappotti verdi abbinati e creare un servizio fotografico di moda.
Le foto delle due persone sono state entrambe ricavate da immagini già pronte. Il cappotto verde e lo sfondo ghiacciato innevato sono stati generati separatamente tramite AI, con il testo "AIGC" sul cappotto che funge da sfida per Pika.
Il risultato ha mostrato una discreta coerenza tra la scena e il cappotto, e il testo "AIGC" era appena riconoscibile. Anche le pose dei modelli seguivano le istruzioni. Ma il problema più grande è: chi sono queste due persone? I volti nel video e nelle foto potrebbero non essere identici, ma non sono per niente correlati.
Poi abbiamo testato la personalizzazione dell'outfit di Pika generando una maglietta nera con la frase "Ero umano". Abbiamo aggiunto una foto di Mark Zuckerberg e una foto di un ukulele per creare un'esibizione musicale.
Pika ha seguito bene lo spunto e il movimento della telecamera è stato fluido. Anche i vestiti sono stati indossati senza soluzione di continuità, ma la mano destra, in particolare il pollice, non è ancora perfetta.
Rispetto a Google Veo e OpenAI Sora, il modello di Pika non è di prim'ordine. Risolvere un problema spesso rivela più errori.
Dopo aver provato uno stile realistico, passiamo a uno stile anime. Per avere Gintoki Sakata e Naruto Uzumaki nella stessa inquadratura, scelgo due immagini con cielo azzurro e nuvole bianche come sfondo.
Lo sfondo si fonde in modo naturale e le espressioni sono ben catturate, con l'effetto del vento sui capelli e sui vestiti che si adatta bene. Tuttavia, l'effetto di rotazione è piuttosto inquietante. Gli occhi di Gintoki sembrano senza vita, non si stanno davvero ribaltando.
Si possono anche far interagire dipinti famosi in epoche diverse, come la Monna Lisa e la Ragazza con l'orecchino di perla che mangiano patatine fritte al McDonald's. L'effetto non è l'ideale. Vedendo la Monna Lisa, ci si chiede se Da Vinci si rivolterebbe nella tomba. I personaggi sembrano adesivi piazzati nel video, con strani movimenti della testa.
A volte, il ritorno alla semplicità produce risultati inaspettatamente buoni. Caricando un'immagine di Starbucks e un dipinto di Monet, le Ninfee, si ottiene una tazza da caffè "simile a un loto".
In competizione con i modelli cinesi, il controllo dei video AI è ora più semplice
In una certa misura, Pika ha migliorato la controllabilità video. Sebbene non del tutto riuscito, come si vede nella pratica, Pika mantiene la coerenza nelle scene, negli abiti e negli oggetti, ma i volti tendono a distorcersi indipendentemente dallo stile.
Inoltre, le capacità di base di Pika devono essere migliorate. Azioni come mangiare o suonare il pianoforte pongono ancora delle sfide. Questi problemi possono essere alleviati pescando delle carte?
In tre parole: non conveniente. Pika 2.0 è attualmente disponibile solo per utenti Pro e Fancy, al costo di almeno $35 al mese senza prova gratuita. Inoltre, gli utenti Pro ottengono solo 2000 punti al mese, ma usare la funzionalità Scene Ingredients costa 100 punti a video.
In effetti, il modello video AI cinese Vidu ha implementato la funzionalità "riferimento multi-immagine" prima di Pika. Più attraente per gli utenti, offre punti di prova gratuiti.
Ho testato alcuni casi di Pika su Vidu. La Monna Lisa e la Ragazza con l'orecchino di perla che mangiano patatine fritte sembrano appena emerse da terra, ma la somiglianza della Monna Lisa è migliore di quella di Pika.
Elon Musk e Ultraman guardano un film insieme. Il volto di Musk è fedele al 70-80%, ma quello di Ultraman non è ancora un granché.
Gintoki Sakata e Naruto Uzumaki nella stessa inquadratura, Vidu può generare una faccia laterale da una faccia frontale, ma lo stile è diverso dall'immagine originale.
Inoltre, Vidu ha una limitazione rispetto a Pika: può caricare solo un massimo di tre immagini. Quindi, quando ho usato Vidu per creare uno shooting di moda per Musk e Ultraman, ho caricato solo le loro foto e un cappotto verde, tralasciando lo sfondo.
I risultati sono stati poco familiari. È chiaro che mantenere la stabilità facciale è ancora una sfida.
Confrontando Vidu con Pika, le opinioni possono variare. Pika utilizza una versione professionale, mentre Vidu utilizza una versione gratuita, il che giustifica alcune differenze. Tuttavia, l'approccio di Pika e Vidu è simile: utilizzare solo pochi materiali di immagini e semplici prompt per generare oggetti relativamente stabili.
Nella generazione di video AI, il mantenimento della coerenza del soggetto è attualmente ottenuto in modo più affidabile con la soluzione LoRA. Ciò comporta la messa a punto del modello con una certa quantità di materiale specifico del soggetto. Con materiale e formazione adeguati, il modello apprende gradualmente le caratteristiche dell'aspetto del personaggio.
Ma per rendere i video AI più accessibili e commercialmente preziosi, la barriera d'ingresso deve essere abbassata. Almeno con Vidu e Pika, ne vediamo il potenziale.
Diventare virali con i video brevi basati sull'intelligenza artificiale: un biglietto di sola andata per la creatività
Poco dopo l'uscita del modello 2.0 di Pika, gli utenti internazionali si stavano già divertendo un mondo. Generando ripetutamente video in diverse scene usando le proprie foto, potevano ottenere un "viaggio istantaneo nell'universo". Con l'intelligenza artificiale, provare i vestiti è a portata di clic. Modelle e outfit fluiscono senza soluzione di continuità, risparmiando il costo degli scatti veri e propri.
Giocare con Pika mi ha dato una sensazione simile a quella che ho provato giocando a "QQ Show" e "The Sims", dove decidiamo come vestire i personaggi nel video.
Se vuoi realizzare il "sogno" di Musk, è facile. Per prima cosa, usa altri strumenti di intelligenza artificiale per generare una maglietta "Conquer Mars" e un cappello rosso con la scritta "MAGA".
Quindi, carica queste immagini, una scena di Marte, la foto di Musk, il suo robot umanoide Optimus Prime e il suo meme preferito di Internet, il prototipo Doge, su Pika.
Alla fine, appare un giovane allegro e solare, con un cane sulla sinistra e un robot sulla destra, dall'aspetto amichevole ma non proprio come Musk.
Che gli somigli o meno è una cosa; finché si mantiene una mente aperta, le possibilità sono infinite. Utilizzando foto di noi stessi e di celebrità, possiamo facilmente impegnarci nel fandom. Carica cappelli, vestiti e strumenti per vestirci dalla testa ai piedi. Raccogli scene, prodotti e modelli e avrai un semplice video commerciale...
Foto + immagini AI + Pika 2.0 + prompt possono generare molti elementi visivi interessanti. Questo metodo evita anche alcune delle carenze dei modelli video, come la scrittura, che può essere risolta con modelli di immagini. Senza competere direttamente con le capacità del modello di Google o confrontarsi con i sogni hollywoodiani di Runway, Pika ha il suo approccio unico.
Pika è sempre stato un maestro di creatività: la sua precedente serie di effetti speciali basati sull'intelligenza artificiale, Pikaffect, è diventata virale su piattaforme come RedNote e TikTok, portando la base di utenti di Pika a oltre 11 milioni.
Pika ha attinto a un gruppo di utenti con una forte domanda di video brevi e divertenti. Anche se questi video sono basati su template e fugaci, finché sono divertenti, la gente si riverserà su di loro.
Chi ha detto che vincere significa prendere tutto? Il mercato dell'intelligenza artificiale è vasto e, sebbene simulare il mondo fisico sia un grande sogno, raggiungere il piccolo obiettivo di rendere divertenti i brevi video di intelligenza artificiale è anche una forma di successo.
Fonte da se uno
Dichiarazione di non responsabilità: le informazioni sopra riportate sono fornite da ifanr.com, indipendentemente da Chovm.com. Chovm.com non rilascia alcuna dichiarazione o garanzia in merito alla qualità e all'affidabilità del venditore e dei prodotti. Chovm.com declina espressamente qualsiasi responsabilità per violazioni relative al diritto d'autore dei contenuti.