Inovação em vídeo de IA: Revolução no desenho de cartas sem as mãos -

Não está satisfeito depois de assistir “Squid Game”? Crie seu próprio final.

GIF de um final personalizado do Squid Game

Não consegue esperar por “Dune Part Three”? Faça sua própria versão.

Anteriormente, manter aparências consistentes de personagens exigia um tempo considerável. Agora, com apenas uma captura de tela, a IA pode começar a fazer filmes.

Isso é graças ao recurso “Subject Reference” do Conch AI, alimentado pelo novo modelo S2V-01. Ele identifica com precisão o assunto em imagens carregadas e o define como o personagem em vídeos gerados. O resto é simples: crie livremente com instruções básicas.

GIF mostrando retenção precisa de informações faciais — _{Criação do usuário X @KarolineGeorges, com retenção precisa de informações faciais”}

GIF mostrando assuntos diversos — _{Criação do usuário X @Apple_Dog_Sol, apresentando assuntos diversos”}

Vantagens do recurso “Referência de assunto”

Muitas empresas estão desenvolvendo recursos de “Referência de Assunto”, mas nem todas conseguem enfrentar os desafios de estabilidade e coerência, especialmente manter a consistência em movimento.

Enquanto outros podem ter dificuldades, o Conch AI se destaca. Com apenas uma imagem, ele entende com precisão os traços dos personagens, os identifica como sujeitos e os coloca em várias cenas.

Num momento o Homem-Aranha está salvando o mundo, no outro ele está pilotando uma motocicleta.

A Mãe dos Dragões, que deveria estar treinando dragões em “Game of Thrones”, agora está brincando com um pequeno lobo.

O avanço na “referência de assunto” está em atingir um equilíbrio entre liberdade criativa e fidelidade. É como dar aos criadores um “ator universal” cuja aparência não distorce, mas muda naturalmente com ações e poses, realizando qualquer ação em qualquer cena conforme exigido pelo diretor.

Não apenas um novo recurso, mas uma solução técnica única

A experiência real de testes mostra que a referência de assunto é uma função diferente, com desafios e requisitos técnicos diferentes em comparação à geração de texto para imagem ou de imagem para imagem.

A geração tradicional de imagem para vídeo apenas anima imagens estáticas, principalmente com modificações parciais. Por exemplo, nesta imagem estática de Song Hye-kyo, a imagem para vídeo apenas transforma a imagem estática em uma dinâmica com alcance limitado e sem movimentos significativos.

Foto original de Song Hye-kyo — _{Foto original}

Foto animada de Song Hye-kyo — _{Vídeo gerado de imagem para vídeo}

Com a mesma foto, a “referência do assunto” pode criar um segmento completo com base em instruções de texto, permitindo movimento livre e mantendo características faciais estáveis.

Vídeo gerado por Song Hye-kyo — _{Iluminação interna quente, em uma plateia de teatro, a protagonista em um terno preto, sentada no meio da fileira à esquerda. Sua expressão é focada, ocasionalmente sorrindo levemente, batendo palmas naturalmente e ritmicamente. A câmera começa do lado dela, capturando silhuetas de outros membros da plateia e as texturas escuras dos assentos, enfatizando a profundidade do ambiente. Conforme a câmera se move, a protagonista se levanta.}

Atualmente, há duas rotas técnicas para gerar vídeos com um assunto. Uma é baseada na tecnologia LoRA, que ajusta modelos generativos grandes pré-treinados. LoRA requer computação significativa ao gerar novos vídeos, exigindo que os usuários carreguem vários ângulos do mesmo assunto, até mesmo especificando elementos diferentes para cada segmento para garantir a qualidade. Isso também consome muitos tokens e requer um longo tempo de espera.

Após uma extensa exploração técnica, a MiniMax escolheu uma rota baseada em referência de imagem: as imagens contêm as informações visuais mais precisas, alinhando-se com a lógica criativa da filmagem física. Nessa rota, o protagonista na imagem é a principal prioridade do modelo para reconhecimento — independentemente das cenas ou enredo subsequentes, o assunto deve permanecer consistente.

Outras informações visuais são mais abertas e controladas por prompts de texto. Essa abordagem atinge o objetivo de “reprodução precisa + alta liberdade”.

O personagem está diante de um dragão, com cabelos e roupas balançando ao vento. — _{Em uma clareira no vale, o protagonista está diante de um dragão, seus longos cabelos balançando ao vento. A câmera gradualmente se afasta, capturando o protagonista se virando para olhar para a distância. As asas do dragão se abrem, soprando o cabelo e o vestido do protagonista, e a cena termina com uma tomada aérea.”}

Neste vídeo, apenas uma imagem da Rainha Dragão foi fornecida ao modelo. O vídeo final gerado apresentou com precisão a linguagem da câmera e os elementos visuais mencionados no prompt, demonstrando um forte entendimento.

Comparado à solução LoRA, essa abordagem técnica reduz significativamente a quantidade de material que os usuários precisam carregar, transformando dezenas de segmentos de vídeo em uma única imagem. O tempo de espera é medido em segundos, parecendo semelhante ao tempo que leva para gerar texto ou imagens — combinando a precisão da imagem para vídeo com a liberdade do texto para vídeo.

Destaques da fabricação chinesa, atendendo às suas múltiplas necessidades

Necessidades múltiplas não são uma demanda excessiva. Somente ao atingir simultaneamente imagens de personagens precisas e consistentes e movimento livre o modelo pode superar usos simples de entretenimento e ter valor mais amplo em aplicações industriais.

Por exemplo, em anúncios de produtos, uma única imagem de modelo pode gerar diretamente vários vídeos de produtos simplesmente alterando as palavras do prompt.

Corredor em movimento, apresentando geração dinâmica de vídeos.

Vídeo de produto de vidro, destacando geração visual detalhada.

Se usar métodos de imagem para vídeo, a solução mainstream atual é definir o primeiro e o último quadro, com o efeito limitado pelas imagens existentes. Também requer tentativas repetidas de coletar ângulos diferentes e, então, costurar os materiais para completar uma sequência de tomadas.

Combinar as características de diferentes tecnologias para melhor se adequar ao fluxo de trabalho de criação de vídeo é a vantagem da “referência de assunto”. No futuro, mais de 80% dos profissionais de marketing usarão ferramentas generativas em vários estágios, focando apenas na concepção da história e do enredo, liberando suas mãos.

De acordo com a Statista, o tamanho do mercado de produtos de IA generativa em publicidade e marketing ultrapassou US$ 15 bilhões em 2021. Em 2028, esse número chegará a US$ 107.5 bilhões. Em fluxos de trabalho anteriores, o texto para vídeo puro tinha muitos fatores incontroláveis, adequados para os estágios iniciais da criação. Nas indústrias de publicidade e marketing europeia e americana, a IA generativa já é muito comum, com 52% dos casos de uso para rascunhos e planejamento, e 48% para brainstorming.

Atualmente, a Hailuo AI abre primeiro a capacidade de referência para um único personagem. No futuro, ela se expandirá para múltiplos personagens, objetos, cenas e mais, liberando ainda mais a criatividade, conforme proposto pelo slogan da Hailuo, “Toda ideia é um blockbuster”.

Desde que a MiniMax lançou o modelo de vídeo em agosto de 2023, ele atraiu continuamente um grande número de usuários internacionalmente, desde a qualidade e suavidade das imagens geradas até a consistência e estabilidade, recebendo muitos comentários positivos e reconhecimento profissional.

No ano passado de competição tecnológica, o cenário competitivo do campo de geração de vídeo de IA surgiu inicialmente. A implementação do Sora mostrou o potencial da geração de vídeo, levando grandes empresas de tecnologia a investir pesadamente neste campo.

Com o lançamento atrasado do produto da Sora no final de 2024 e avaliações médias dos usuários, ele não atendeu às expectativas do mercado, dando a outros players a chance de conquistar o mercado.

Agora, com o vídeo generativo entrando no segundo semestre, apenas três empresas realmente demonstram força técnica e potencial de desenvolvimento: Hailuo AI da MiniMax, Keling AI da Kuaishou e Jimeng AI da ByteDance.

Como uma startup fundada há apenas três anos, a MiniMax trouxe produtos e tecnologia que podem competir no nível mais alto com seu tamanho de startup enxuto. Do modelo de imagem para vídeo I2V-01-Live em dezembro de 2023 ao novo modelo S2V-01, eles têm resolvido os desafios da geração de vídeo anterior.

À medida que a tecnologia continua a amadurecer e os cenários de aplicação se expandem, a IA de geração de vídeo desencadeará uma nova revolução na criação de conteúdo, produção de filmes, marketing e comunicação. Essas empresas, representando o mais alto nível do campo de IA de geração de vídeo da China, não estão apenas liderando o mercado chinês, mas também devem competir globalmente com gigantes internacionais. Enquanto isso, garantir a estabilidade e a controlabilidade do produto, mantendo a inovação tecnológica, será um desafio contínuo para essas empresas.

Retirado de se um

Isenção de responsabilidade: as informações estabelecidas acima são fornecidas por ifanr.com, independentemente do Chovm.com. Chovm.com não faz nenhuma representação e garantia quanto à qualidade e confiabilidade do vendedor e dos produtos. Chovm.com isenta-se expressamente de qualquer responsabilidade por violações relativas aos direitos autorais do conteúdo.

Últimas notícias

Inovação em vídeo de IA: Revolução no desenho de cartas sem as mãos

Vantagens do recurso “Referência de assunto”

Não apenas um novo recurso, mas uma solução técnica única

Destaques da fabricação chinesa, atendendo às suas múltiplas necessidades

Sobre o autor

se um

Deixe um comentário

Vantagens do recurso “Referência de assunto”

Não apenas um novo recurso, mas uma solução técnica única

Destaques da fabricação chinesa, atendendo às suas múltiplas necessidades

Sobre o autor

se um

Artigos relacionados

Deixe um comentário