Innovation vidéo IA : révolution du dessin de cartes mains libres -

Vous n'êtes pas satisfait après avoir regardé « Squid Game » ? Créez votre propre fin.

GIF d'une fin de jeu Squid personnalisée

Vous avez hâte de découvrir « Dune, troisième partie » ? Créez votre propre version.

Auparavant, il fallait beaucoup de temps pour conserver une apparence cohérente des personnages. Désormais, avec une simple capture d'écran, l'IA peut commencer à créer des films.

C'est grâce à la fonction « Référence du sujet » de Conch AI, optimisée par le nouveau modèle S2V-01. Elle identifie avec précision le sujet dans les images téléchargées et le définit comme personnage dans les vidéos générées. Le reste est simple : créez librement avec des instructions de base.

GIF montrant une rétention précise des informations faciales — _{Création de l'utilisateur X @KarolineGeorges, avec rétention précise des informations faciales”}

GIF montrant divers sujets — _{Création de l'utilisateur X @Apple_Dog_Sol, présentant des sujets divers”}

Avantages de la fonction « Référence du sujet »

De nombreuses entreprises développent des fonctionnalités de « référence de sujet », mais toutes ne parviennent pas à relever les défis de la stabilité et de la cohérence, notamment du maintien de la cohérence en mouvement.

Alors que d'autres ont des difficultés, Conch AI excelle. Avec une seule image, il comprend avec précision les traits de caractère, les identifie comme sujets et les place dans diverses scènes.

Un instant, Spider-Man sauve le monde, l'instant d'après, il conduit une moto.

La Mère des Dragons, qui devrait entraîner les dragons dans « Game of Thrones », joue maintenant avec un petit loup.

La percée dans le domaine de la « référence au sujet » réside dans l'équilibre entre liberté créative et fidélité. C'est comme si on donnait aux créateurs un « acteur universel » dont l'apparence ne se déforme pas mais change naturellement au gré des actions et des poses, exécutant n'importe quelle action dans n'importe quelle scène selon les besoins du réalisateur.

Pas seulement une nouvelle fonctionnalité, mais une solution technique unique

L'expérience de test réelle montre que la référence du sujet est une fonction différente, avec des défis et des exigences techniques différents par rapport à la génération de texte en image ou d'image en image.

La conversion d'image en vidéo traditionnelle ne fait qu'animer des images statiques, principalement avec des modifications partielles. Par exemple, dans cette image de Song Hye-kyo, la conversion d'image en vidéo ne fait que transformer l'image statique en une image dynamique avec une portée limitée et sans mouvements significatifs.

Image originale de Song Hye-kyo — _{Image originale}

Image animée de Song Hye-kyo — _{Vidéo générée à partir d'une image vers une vidéo}

Avec la même photo, le « sujet de référence » peut créer un segment complet basé sur des invites textuelles, permettant un mouvement libre tout en conservant des traits du visage stables.

Vidéo générée par Song Hye-kyo — _{Lumière intérieure chaleureuse, dans un public de théâtre, la protagoniste en costume noir, assise au milieu de la rangée gauche. Son expression est concentrée, elle sourit parfois légèrement, applaudit naturellement et rythmiquement. La caméra part de son côté, capturant les silhouettes des autres membres du public et les textures tamisées des sièges, soulignant la profondeur de l'environnement. Alors que la caméra se rapproche, la protagoniste se lève.}

Il existe actuellement deux voies techniques pour générer des vidéos avec un sujet. L'une repose sur la technologie LoRA, qui affine les modèles génératifs pré-entraînés de grande taille. LoRA nécessite des calculs importants lors de la génération de nouvelles vidéos, obligeant les utilisateurs à télécharger plusieurs angles du même sujet, en spécifiant même des éléments différents pour chaque segment afin de garantir la qualité. Cela consomme également de nombreux jetons et nécessite un long temps d'attente.

Après une exploration technique approfondie, MiniMax a choisi une voie basée sur la référence de l'image : les images contiennent les informations visuelles les plus précises, en accord avec la logique créative de la prise de vue physique. Dans cette voie, le protagoniste de l'image est la priorité absolue du modèle pour la reconnaissance - quelles que soient les scènes ou l'intrigue qui suivent, le sujet doit rester cohérent.

D’autres informations visuelles sont plus ouvertes et contrôlées par des invites textuelles. Cette approche permet d’atteindre l’objectif de « reproduction précise + grande liberté ».

Le personnage se tient devant un dragon, les cheveux et la robe flottant au vent. — _{Dans une clairière de la vallée, le protagoniste se tient devant un dragon, ses longs cheveux flottant au vent. La caméra s'éloigne progressivement, capturant le protagoniste se tournant pour regarder au loin. Les ailes du dragon se déploient, emportant les cheveux et la robe du protagoniste, et la scène se termine par une prise de vue en plongée.}

Dans cette vidéo, une seule image de la Reine Dragon a été fournie au modèle. La vidéo finale générée présentait avec précision le langage de la caméra et les éléments visuels mentionnés dans l'invite, démontrant une solide compréhension.

Par rapport à la solution LoRA, cette approche technique réduit considérablement la quantité de contenu que les utilisateurs doivent télécharger, transformant des dizaines de segments vidéo en une seule image. Le temps d'attente est mesuré en secondes, ce qui est similaire au temps nécessaire pour générer du texte ou des images, combinant la précision de la conversion image-vidéo avec la liberté de la conversion texte-vidéo.

Les points forts de la fabrication chinoise, répondant à vos multiples besoins

Les besoins multiples ne sont pas une exigence excessive. Ce n'est qu'en obtenant simultanément des images de personnages précises et cohérentes et une liberté de mouvement que le modèle peut dépasser les simples utilisations de divertissement et avoir une valeur plus large dans les applications industrielles.

Par exemple, dans les publicités de produits, une seule image de modèle peut générer directement plusieurs vidéos de produits en modifiant simplement les mots d'invite.

Coureur en mouvement, présentant la génération de vidéo dynamique.

Vidéo sur les produits en verre, mettant en évidence la génération visuelle détaillée.

Si l'on utilise des méthodes de conversion d'images en vidéos, la solution courante actuelle consiste à définir les première et dernière images, l'effet étant limité par les images existantes. Cela nécessite également des tentatives répétées pour collecter différents angles, puis assembler les matériaux pour compléter une séquence de prises de vue.

La combinaison des caractéristiques de différentes technologies pour mieux s'adapter au flux de création vidéo constitue l'avantage de la « référence thématique ». À l'avenir, plus de 80 % des professionnels du marketing utiliseront des outils génératifs à différentes étapes, se concentrant uniquement sur la conception de l'histoire et de l'intrigue, ce qui leur laissera les mains libres.

Selon Statista, la taille du marché des produits d'IA générative dans la publicité et le marketing a dépassé les 15 milliards de dollars en 2021. D'ici 2028, ce chiffre atteindra 107.5 milliards de dollars. Dans les flux de travail précédents, la conversion pure de texte en vidéo comportait trop de facteurs incontrôlables, adaptés aux premières étapes de la création. Dans les secteurs européens et américains de la publicité et du marketing, l'IA générative est déjà très courante, avec 52 % des cas d'utilisation pour les brouillons et la planification, et 48 % pour le brainstorming.

Actuellement, Hailuo AI ouvre d'abord la capacité de référence pour un seul personnage. À l'avenir, elle s'étendra à plusieurs personnages, objets, scènes et plus encore, libérant ainsi encore plus la créativité, comme le propose le slogan de Hailuo, « Chaque idée est un blockbuster ».

Depuis que MiniMax a publié le modèle vidéo en août 2023, il n'a cessé d'attirer un grand nombre d'utilisateurs à l'échelle internationale, de la qualité et de la fluidité des images générées à la cohérence et à la stabilité, recevant de nombreux retours positifs et une reconnaissance professionnelle.

Au cours de la dernière année de compétition technologique, le paysage concurrentiel du domaine de la génération de vidéos par l'IA a commencé à émerger. La mise en œuvre de Sora a montré le potentiel de la génération de vidéos, incitant les grandes entreprises technologiques à investir massivement dans ce domaine.

Avec le lancement retardé du produit de Sora à la fin de 2024 et les critiques moyennes des utilisateurs, il n'a pas réussi à répondre aux attentes du marché, donnant à d'autres acteurs une chance de s'emparer du marché.

Aujourd'hui, alors que la vidéo générative entre dans sa seconde moitié de vie, seules trois entreprises démontrent véritablement leur force technique et leur potentiel de développement : Hailuo AI de MiniMax, Keling AI de Kuaishou et Jimeng AI de ByteDance.

En tant que startup fondée il y a seulement trois ans, MiniMax a apporté des produits et des technologies qui peuvent rivaliser au plus haut niveau malgré sa taille réduite. Du modèle I2V-01-Live image-to-video en décembre 2023 au nouveau modèle S2V-01, ils ont résolu les défis de la génération vidéo précédente.

À mesure que la technologie continue de mûrir et que les scénarios d'application se développent, l'IA de génération de vidéos va déclencher une nouvelle révolution dans la création de contenu, la production de films, le marketing et la communication. Ces entreprises, qui représentent le plus haut niveau du domaine de l'IA de génération de vidéos en Chine, sont non seulement leaders du marché chinois, mais devraient également concurrencer les géants internationaux à l'échelle mondiale. Parallèlement, assurer la stabilité et la contrôlabilité des produits tout en maintenant l'innovation technologique sera un défi permanent pour ces entreprises.

Source à partir de si un

Avis de non-responsabilité : les informations présentées ci-dessus sont fournies par ifanr.com, indépendamment d'Chovm.com. Chovm.com ne fait aucune représentation ni garantie quant à la qualité et à la fiabilité du vendeur et des produits. Chovm.com décline expressément toute responsabilité en cas de violations des droits d'auteur du contenu.

Dernières actualités

Innovation vidéo IA : la révolution du tirage de cartes mains libres

Avantages de la fonction « Référence du sujet »

Pas seulement une nouvelle fonctionnalité, mais une solution technique unique

Les points forts de la fabrication chinoise, répondant à vos multiples besoins

A propos de l'auteur

si un

Laisser un commentaire

Avantages de la fonction « Référence du sujet »

Pas seulement une nouvelle fonctionnalité, mais une solution technique unique

Les points forts de la fabrication chinoise, répondant à vos multiples besoins

A propos de l'auteur

si un

Articles similaires

Laisser un commentaire