Innovazione video AI: rivoluzione nell'estrazione delle carte a mani libere -

Non sei soddisfatto dopo aver guardato "Squid Game"? Crea il tuo finale.

GIF di un finale di gioco Squid personalizzato

Non vedi l'ora di vedere "Dune Parte Tre"? Crea la tua versione.

In precedenza, mantenere l'aspetto coerente dei personaggi richiedeva molto tempo. Ora, con un semplice screenshot, l'IA può iniziare a creare film.

Questo grazie alla funzione "Subject Reference" di Conch AI, alimentata dal nuovo modello S2V-01. Identifica con precisione il soggetto nelle immagini caricate e lo imposta come personaggio nei video generati. Il resto è semplice: crea liberamente con istruzioni di base.

GIF che mostra la conservazione precisa delle informazioni facciali — _{Creazione dell'utente X @KarolineGeorges, con conservazione precisa delle informazioni facciali”}

GIF che mostra soggetti diversi — _{Creazione dell'utente X @Apple_Dog_Sol, che presenta argomenti diversi”}

Vantaggi della funzionalità “Riferimento soggetto”

Molte aziende stanno sviluppando funzionalità di "riferimento soggetto", ma non tutte riescono ad affrontare le sfide della stabilità e della coerenza, in particolare mantenendo la coerenza in movimento.

Mentre altri potrebbero avere difficoltà, Conch AI eccelle. Con una sola immagine, comprende accuratamente i tratti caratteriali, li identifica come soggetti e li colloca in varie scene.

Un momento Spider-Man sta salvando il mondo, quello dopo è alla guida di una motocicletta.

La Madre dei Draghi, che dovrebbe addestrare i draghi in "Game of Thrones", ora sta giocando con un piccolo lupo.

La svolta nel "riferimento al soggetto" sta nel raggiungere un equilibrio tra libertà creativa e fedeltà. È come dare ai creatori un "attore universale" il cui aspetto non si distorce ma cambia naturalmente con azioni e pose, eseguendo qualsiasi azione in qualsiasi scena come richiesto dal regista.

Non solo una nuova funzionalità, ma una soluzione tecnica unica

L'esperienza di test effettiva dimostra che il riferimento al soggetto è una funzione diversa, con sfide e requisiti tecnici diversi rispetto alla generazione di testo-immagine o di immagine-immagine.

La tradizionale generazione di immagini in video anima solo immagini statiche, principalmente con modifiche parziali. Ad esempio, in questo fermo immagine di Song Hye-kyo, l'immagine in video trasforma solo l'immagine statica in un'immagine dinamica con una gamma limitata e senza movimenti significativi.

Immagine originale di Song Hye-kyo — _{Immagine originale}

Immagine animata di Song Hye-kyo — _{Video generato da immagine a video}

Con la stessa foto, il “riferimento del soggetto” può creare un segmento completo basato su prompt di testo, consentendo il libero movimento mantenendo stabili i tratti del viso.

Video generato di Song Hye-kyo — _{Illuminazione interna calda, pubblico di un teatro, la protagonista in abito nero, seduta a metà fila a sinistra. La sua espressione è concentrata, ogni tanto sorride leggermente, applaude in modo naturale e ritmico. La telecamera parte dal suo lato, catturando le sagome degli altri membri del pubblico e le texture scure dei sedili, enfatizzando la profondità dell'ambiente. Mentre la telecamera si avvicina, la protagonista si alza.}

Attualmente ci sono due percorsi tecnici per generare video con un soggetto. Uno si basa sulla tecnologia LoRA, che ottimizza modelli generativi di grandi dimensioni pre-addestrati. LoRA richiede un calcolo significativo quando si generano nuovi video, costringendo gli utenti a caricare più angolazioni dello stesso soggetto, specificando persino elementi diversi per ogni segmento per garantire la qualità. Ciò consuma anche molti token e richiede un lungo tempo di attesa.

Dopo un'ampia esplorazione tecnica, MiniMax ha scelto un percorso basato sul riferimento dell'immagine: le immagini contengono le informazioni visive più accurate, allineandosi alla logica creativa delle riprese fisiche. In questo percorso, il protagonista nell'immagine è la massima priorità del modello per il riconoscimento: indipendentemente dalle scene o dalla trama successive, il soggetto deve rimanere coerente.

Altre informazioni visive sono più aperte e controllate da prompt di testo. Questo approccio raggiunge l'obiettivo di "riproduzione precisa + elevata libertà".

Il personaggio è in piedi davanti a un drago, con i capelli e il vestito che svolazzano al vento. — _{In una radura nella valle, il protagonista è in piedi davanti a un drago, i suoi lunghi capelli fluttuano nel vento. La telecamera si allontana gradualmente, catturando il protagonista che si gira per guardare in lontananza. Le ali del drago si aprono, soffiando sui capelli e sul vestito del protagonista, e la scena si conclude con una ripresa dall'alto."}

In questo video, è stata fornita al modello solo un'immagine della Regina Drago. Il video finale generato ha presentato in modo accurato il linguaggio della telecamera e gli elementi visivi menzionati nel prompt, dimostrando una solida comprensione.

Rispetto alla soluzione LoRA, questo approccio tecnico riduce significativamente la quantità di materiale che gli utenti devono caricare, trasformando decine di segmenti video in un'unica immagine. Il tempo di attesa è misurato in secondi, simile al tempo necessario per generare testo o immagini, combinando l'accuratezza dell'immagine-video con la libertà del testo-video.

Punti salienti della produzione cinese, per soddisfare le vostre molteplici esigenze

Le esigenze multiple non sono una richiesta eccessiva. Solo ottenendo simultaneamente immagini di personaggi accurate e coerenti e movimento libero, il modello può superare i semplici usi di intrattenimento e avere un valore più ampio nelle applicazioni industriali.

Ad esempio, nelle pubblicità di prodotti, una singola immagine di un modello può generare direttamente vari video di prodotti semplicemente cambiando le parole chiave.

Runner in movimento che mostra la generazione di video dinamici.

Video del prodotto in vetro, che evidenzia la generazione visiva dettagliata.

Se si utilizzano metodi image-to-video, la soluzione mainstream attuale è quella di impostare il primo e l'ultimo fotogramma, con l'effetto limitato dalle immagini esistenti. Richiede anche ripetuti tentativi di raccogliere diverse angolazioni e quindi unire i materiali per completare una sequenza di scatti.

Combinare le caratteristiche di diverse tecnologie per adattarsi meglio al flusso di lavoro di creazione video è il vantaggio del "riferimento al soggetto". In futuro, oltre l'80% dei professionisti del marketing utilizzerà strumenti generativi in varie fasi, concentrandosi solo sulla concezione della storia e della trama, liberando le proprie mani.

Secondo Statista, la dimensione del mercato dei prodotti di intelligenza artificiale generativa in pubblicità e marketing ha superato i 15 miliardi di dollari nel 2021. Entro il 2028, questo numero raggiungerà i 107.5 miliardi di dollari. Nei flussi di lavoro precedenti, il testo puro in video aveva troppi fattori incontrollabili, adatti alle prime fasi della creazione. Nei settori della pubblicità e del marketing europeo e americano, l'intelligenza artificiale generativa è già molto comune, con il 52% dei casi d'uso per bozze e pianificazione e il 48% per il brainstorming.

Attualmente, Hailuo AI apre per la prima volta la capacità di riferimento per un singolo personaggio. In futuro, si espanderà a più personaggi, oggetti, scene e altro ancora, liberando ulteriormente la creatività, come proposto dallo slogan di Hailuo, "Ogni idea è un successo".

Da quando MiniMax ha rilasciato il modello video nell'agosto 2023, ha continuato ad attrarre un gran numero di utenti a livello internazionale, grazie alla qualità e fluidità delle immagini generate, alla coerenza e alla stabilità, ricevendo molti feedback positivi e riconoscimenti professionali.

Nell'ultimo anno di competizione tecnologica, è emerso inizialmente il panorama competitivo del campo della generazione video AI. L'implementazione di Sora ha mostrato il potenziale della generazione video, spingendo le principali aziende tecnologiche a investire massicciamente in questo campo.

Con il lancio ritardato del prodotto Sora alla fine del 2024 e le recensioni nella media degli utenti, il prodotto non è riuscito a soddisfare le aspettative del mercato, dando ad altri attori la possibilità di conquistare il mercato.

Ora, mentre il video generativo entra nella seconda metà, solo tre aziende dimostrano realmente forza tecnica e potenziale di sviluppo: Hailuo AI di MiniMax, Keling AI di Kuaishou e Jimeng AI di ByteDance.

Come startup fondata appena tre anni fa, MiniMax ha portato prodotti e tecnologie in grado di competere ai massimi livelli con le sue dimensioni snelle di startup. Dal modello I2V-01-Live image-to-video del dicembre 2023 al nuovo modello S2V-01, hanno risolto le sfide della precedente generazione video.

Man mano che la tecnologia continua a maturare e gli scenari applicativi si espandono, l'intelligenza artificiale per la generazione di video darà il via a una nuova rivoluzione nella creazione di contenuti, nella produzione cinematografica, nel marketing e nella comunicazione. Queste aziende, che rappresentano il livello più alto del campo dell'intelligenza artificiale per la generazione di video in Cina, non solo guidano il mercato cinese, ma si prevede anche che competano a livello globale con i giganti internazionali. Nel frattempo, garantire la stabilità e la controllabilità del prodotto mantenendo l'innovazione tecnologica sarà una sfida continua per queste aziende.

Fonte da se uno

Dichiarazione di non responsabilità: le informazioni sopra riportate sono fornite da ifanr.com, indipendentemente da Chovm.com. Chovm.com non rilascia alcuna dichiarazione o garanzia in merito alla qualità e all'affidabilità del venditore e dei prodotti. Chovm.com declina espressamente qualsiasi responsabilità per violazioni relative al diritto d'autore dei contenuti.

Notizie

Innovazione video AI: la rivoluzione del disegno delle carte a mani libere

Vantaggi della funzionalità “Riferimento soggetto”

Non solo una nuova funzionalità, ma una soluzione tecnica unica

Punti salienti della produzione cinese, per soddisfare le vostre molteplici esigenze

Circa l'autore

se uno

Lascia un tuo commento

Vantaggi della funzionalità “Riferimento soggetto”

Non solo una nuova funzionalità, ma una soluzione tecnica unica

Punti salienti della produzione cinese, per soddisfare le vostre molteplici esigenze

Circa l'autore

se uno

Post correlati

Lascia un tuo commento