¿No te quedaste satisfecho después de ver “El juego del calamar”? Crea tu propio final.
¿No puedes esperar a ver la tercera parte de Dune? Crea tu propia versión.
Antes, mantener la apariencia de los personajes era algo que requería mucho tiempo. Ahora, con solo una captura de pantalla, la IA puede comenzar a crear películas.
Esto es posible gracias a la función “Referencia de sujeto” de Conch AI, desarrollada con el nuevo modelo S2V-01. Identifica con precisión el sujeto en las imágenes cargadas y lo establece como personaje en los videos generados. El resto es simple: cree libremente con instrucciones básicas.
Ventajas de la función “Referencia de tema”
Muchas empresas están desarrollando funciones de “Referencia de temas”, pero no todas pueden abordar los desafíos de estabilidad y coherencia, especialmente el mantenimiento de la consistencia en movimiento.
Mientras que a otros les puede resultar difícil, Conch AI se destaca. Con solo una imagen, comprende con precisión los rasgos de los personajes, los identifica como sujetos y los ubica en varias escenas.
En un momento Spider-Man está salvando el mundo y al siguiente está conduciendo una motocicleta.
La Madre de Dragones, que debería estar entrenando dragones en “Juego de Tronos”, ahora está jugando con un pequeño lobo.
El avance en la “referencia temática” radica en lograr un equilibrio entre la libertad creativa y la fidelidad. Es como darle a los creadores un “actor universal” cuya apariencia no se distorsiona sino que cambia naturalmente con las acciones y las poses, realizando cualquier acción en cualquier escena según lo requiera el director.
No es sólo una nueva característica, sino una solución técnica única
La experiencia de prueba real muestra que la referencia de sujeto es una función diferente, con diferentes desafíos y requisitos técnicos en comparación con la generación de texto a imagen o de imagen a imagen.
La generación tradicional de imágenes a vídeo solo anima imágenes estáticas, principalmente con modificaciones parciales. Por ejemplo, en esta imagen fija de Song Hye-kyo, la conversión de imágenes a vídeo solo convierte la imagen estática en una dinámica con un alcance limitado y sin movimientos significativos.
Con la misma fotografía, el “sujeto de referencia” puede crear un segmento completo basado en indicaciones de texto, permitiendo el libre movimiento manteniendo estables los rasgos faciales.
Actualmente existen dos rutas técnicas para generar videos con un sujeto. Una se basa en la tecnología LoRA, que ajusta con precisión los modelos generativos de gran tamaño previamente entrenados. LoRA requiere un cálculo significativo al generar nuevos videos, lo que obliga a los usuarios a cargar múltiples ángulos del mismo sujeto e incluso a especificar diferentes elementos para cada segmento para garantizar la calidad. Esto también consume muchos tokens y requiere un largo tiempo de espera.
Después de una extensa exploración técnica, MiniMax eligió una ruta basada en la referencia de imágenes: las imágenes contienen la información visual más precisa, en línea con la lógica creativa de la fotografía física. En esta ruta, el protagonista de la imagen es la máxima prioridad del modelo para su reconocimiento; independientemente de las escenas o la trama posteriores, el sujeto debe permanecer constante.
El resto de la información visual es más abierta y está controlada por indicaciones textuales. Este enfoque logra el objetivo de “reproducción precisa + alta libertad”.
En este video, solo se le proporcionó a la modelo una imagen de la Reina Dragón. El video final generado presentó con precisión el lenguaje de la cámara y los elementos visuales mencionados en la instrucción, lo que demuestra una comprensión sólida.
En comparación con la solución LoRA, este enfoque técnico reduce significativamente la cantidad de material que los usuarios deben cargar, transformando docenas de segmentos de video en una sola imagen. El tiempo de espera se mide en segundos, lo que resulta similar al tiempo que lleva generar texto o imágenes, combinando la precisión de la conversión de imagen a video con la libertad de la conversión de texto a video.
Aspectos destacados de la fabricación china: satisfaciendo sus múltiples necesidades
Las necesidades múltiples no son una exigencia excesiva. Solo logrando simultáneamente imágenes precisas y consistentes de los personajes y un movimiento libre, el modelo puede superar los usos de entretenimiento simples y tener un valor más amplio en las aplicaciones industriales.
Por ejemplo, en los anuncios de productos, una sola imagen de modelo puede generar directamente varios videos de productos simplemente cambiando las palabras clave.
Si se utilizan métodos de conversión de imágenes en vídeo, la solución más utilizada actualmente consiste en fijar el primer y el último fotograma, con un efecto limitado por las imágenes existentes. También es necesario repetir los intentos para recopilar distintos ángulos y luego unir los materiales para completar una secuencia de tomas.
La ventaja de la “referencia temática” es que permite combinar las características de distintas tecnologías para que se adapten mejor al flujo de trabajo de creación de videos. En el futuro, más del 80 % de los profesionales del marketing utilizarán herramientas generativas en varias etapas, centrándose únicamente en la concepción de la historia y la trama, lo que les dejará las manos libres.
Según Statista, el tamaño del mercado de productos de IA generativa en publicidad y marketing superó los 15 mil millones de dólares en 2021. Para 2028, esta cifra alcanzará los 107.5 mil millones de dólares. En los flujos de trabajo anteriores, la conversión pura de texto a vídeo tenía demasiados factores incontrolables, adecuados para las primeras etapas de creación. En las industrias de publicidad y marketing europeas y americanas, la IA generativa ya es muy común, con un 52% de casos de uso para borradores y planificación, y un 48% para lluvia de ideas.
Actualmente, Hailuo AI abre por primera vez la capacidad de referencia para un solo personaje. En el futuro, se ampliará a múltiples personajes, objetos, escenas y más, lo que dará rienda suelta a la creatividad, como lo propone el eslogan de Hailuo: "Cada idea es un éxito de taquilla".
Desde que MiniMax lanzó el modelo de video en agosto de 2023, ha atraído continuamente a una gran cantidad de usuarios a nivel internacional, desde la calidad y fluidez de las imágenes generadas hasta la consistencia y estabilidad, recibiendo muchos comentarios positivos y reconocimiento profesional.
En el último año de competencia tecnológica, surgió el panorama competitivo del campo de la generación de video con IA. La implementación de Sora mostró el potencial de la generación de video, lo que impulsó a las principales empresas tecnológicas a realizar grandes inversiones en este campo.
Con el lanzamiento retrasado del producto de Sora a fines de 2024 y las críticas promedio de los usuarios, no logró cumplir con las expectativas del mercado, lo que dio a otros actores la oportunidad de apoderarse del mercado.
Ahora, cuando el video generativo entra en la segunda mitad, solo tres empresas demuestran verdaderamente fortaleza técnica y potencial de desarrollo: Hailuo AI de MiniMax, Keling AI de Kuaishou y Jimeng AI de ByteDance.
Como startup fundada hace apenas tres años, MiniMax ha aportado productos y tecnología que pueden competir al más alto nivel con su reducido tamaño. Desde el modelo de imagen a vídeo I2V-01-Live en diciembre de 2023 hasta el nuevo modelo S2V-01, han ido resolviendo los retos de la generación de vídeo anterior.
A medida que la tecnología continúa madurando y los escenarios de aplicación se expanden, la IA para la generación de videos desencadenará una nueva revolución en la creación de contenido, la producción cinematográfica, el marketing y la comunicación. Estas empresas, que representan el nivel más alto en el campo de la IA para la generación de videos de China, no solo lideran el mercado chino, sino que también se espera que compitan a nivel mundial con gigantes internacionales. Mientras tanto, garantizar la estabilidad y la capacidad de control del producto al tiempo que se mantiene la innovación tecnológica será un desafío continuo para estas empresas.
Fuente de ifanr
Descargo de responsabilidad: La información establecida anteriormente es proporcionada por ifanr.com, independientemente de Chovm.com. Chovm.com no representa ni garantiza la calidad y confiabilidad del vendedor y los productos. Chovm.com renuncia expresamente a cualquier responsabilidad por violaciones relacionadas con los derechos de autor del contenido.