"오징어 게임"을 보고 만족하지 못하셨나요? 나만의 엔딩을 만들어보세요.


"Dune Part Three"를 기다릴 수 없나요? 나만의 버전을 만들어 보세요.

이전에는 일관된 캐릭터 모습을 유지하는 데 상당한 시간이 필요했습니다. 이제 AI는 스크린샷만 있으면 영화를 만들기 시작할 수 있습니다.
이는 새로운 S2V-01 모델로 구동되는 Conch AI의 "주제 참조" 기능 덕분입니다. 업로드된 이미지에서 주제를 정확하게 식별하고 생성된 비디오에서 캐릭터로 설정합니다. 나머지는 간단합니다. 기본 지침으로 자유롭게 만드세요.


"주제 참조" 기능의 장점
많은 회사가 "주제 참조" 기능을 개발하고 있지만, 모든 회사가 안정성과 일관성의 과제를 해결할 수 있는 것은 아니며, 특히 동작의 일관성을 유지하는 데 있어서 그렇습니다.
다른 사람들은 어려움을 겪을 수 있지만, Conch AI는 뛰어납니다. 단 하나의 이미지로 캐릭터 특성을 정확하게 이해하고, 피사체로 식별하고, 다양한 장면에 배치합니다.
어느 순간 스파이더맨은 세상을 구하고, 다음 순간에는 오토바이를 타고 있습니다.


'왕좌의 게임'에서 용을 훈련해야 할 용의 어머니가 지금은 어린 늑대와 놀고 있습니다.


"주제 참조"의 돌파구는 창작의 자유와 충실함 사이의 균형을 이루는 데 있습니다. 이는 창작자에게 "보편적 배우"를 제공하는 것과 같으며, 그 모습은 왜곡되지 않지만 행동과 포즈에 따라 자연스럽게 바뀌며 감독의 요구에 따라 모든 장면에서 모든 행동을 수행합니다.
새로운 기능일 뿐만 아니라 독특한 기술 솔루션
실제 테스트 경험에 따르면, 주제 참조는 텍스트-이미지 생성이나 이미지-이미지 생성과 비교하여 기술적 과제와 요구 사항이 다른 다른 기능입니다.
기존의 이미지-비디오 생성은 주로 부분적인 수정을 가한 정적 이미지만 애니메이션화합니다. 예를 들어, 송혜교의 이 스틸에서 이미지-비디오는 정적 이미지를 제한된 범위와 의미 있는 움직임이 없는 동적 이미지로만 변환합니다.


동일한 사진에서 '주제 참조'를 사용하면 텍스트 프롬프트를 기반으로 완전한 세그먼트를 만들 수 있어 안정적인 얼굴 특징을 유지하면서도 자유로운 움직임이 가능합니다.

현재 주제가 있는 비디오를 생성하는 데는 두 가지 기술적 경로가 있습니다. 하나는 사전 훈련된 대규모 생성 모델을 미세 조정하는 LoRA 기술을 기반으로 합니다. LoRA는 새로운 비디오를 생성할 때 상당한 계산이 필요하여 사용자가 동일한 주제의 여러 각도를 업로드해야 하며, 품질을 보장하기 위해 각 세그먼트에 대해 다른 요소를 지정해야 합니다. 또한 많은 토큰을 소모하고 긴 대기 시간이 필요합니다.
광범위한 기술적 탐구 끝에 MiniMax는 이미지 참조에 기반한 경로를 선택했습니다. 이미지는 가장 정확한 시각 정보를 포함하고 있으며, 물리적 촬영의 창의적 논리와 일치합니다. 이 경로에서 이미지의 주인공은 모델의 인식을 위한 최우선 순위입니다. 후속 장면이나 플롯과 관계없이 피사체는 일관성을 유지해야 합니다.
다른 시각 정보는 텍스트 프롬프트에 의해 더 개방적이고 제어됩니다. 이 접근 방식은 "정확한 재현 + 높은 자유"라는 목표를 달성합니다.


이 영상에서는 드래곤 퀸의 사진이 모델에게 단 한 장만 제공되었습니다. 최종 생성된 영상은 프롬프트에서 언급된 카메라 언어와 시각적 요소를 정확하게 표현하여 강력한 이해를 보여주었습니다.
LoRA 솔루션과 비교했을 때, 이 기술적 접근 방식은 사용자가 업로드해야 하는 자료의 양을 크게 줄여 수십 개의 비디오 세그먼트를 단일 이미지로 변환합니다. 대기 시간은 초 단위로 측정되며, 텍스트나 이미지를 생성하는 데 걸리는 시간과 비슷하게 느껴집니다. 이미지-비디오의 정확성과 텍스트-비디오의 자유를 결합한 것입니다.
중국 제조의 하이라이트, 여러분의 다양한 요구 사항을 충족합니다
여러 가지 요구 사항은 과도한 요구가 아닙니다. 정확하고 일관된 캐릭터 이미지와 자유로운 움직임을 동시에 달성해야만 이 모델은 단순한 엔터테인먼트 용도를 넘어 산업 응용 분야에서 더 광범위한 가치를 가질 수 있습니다.
예를 들어, 제품 광고에서 단일 모델 이미지에 대한 프롬프트 단어만 변경하면 다양한 제품 비디오를 바로 생성할 수 있습니다.


이미지-비디오 방식을 사용하는 경우, 현재의 주류 솔루션은 첫 번째와 마지막 프레임을 설정하고, 효과는 기존 이미지에 의해 제한됩니다. 또한 다양한 각도를 수집한 다음 자료를 함께 꿰매어 일련의 샷을 완성하려는 반복적인 시도가 필요합니다.
다양한 기술의 특성을 결합하여 비디오 제작 워크플로에 더 잘 맞추는 것이 "주제 참조"의 장점입니다. 미래에는 마케팅 전문가의 80% 이상이 다양한 단계에서 생성 도구를 사용하여 스토리와 플롯 구상에만 집중하여 손을 자유롭게 할 것입니다.
Statista에 따르면, 광고 및 마케팅 분야에서 생성 AI 제품의 시장 규모는 15년에 2021억 달러를 넘어섰습니다. 2028년까지 이 숫자는 107.5억 달러에 도달할 것입니다. 이전 워크플로에서 순수한 텍스트-비디오는 너무 많은 통제할 수 없는 요소가 있어 초기 단계에 적합했습니다. 유럽과 미국의 광고 및 마케팅 산업에서 생성 AI는 이미 매우 흔하며, 초안 및 계획에 대한 사용 사례가 52%, 브레인스토밍에 대한 사용 사례가 48%입니다.
현재 Hailuo AI는 단일 캐릭터에 대한 참조 기능을 먼저 개방했습니다. 앞으로는 여러 캐릭터, 객체, 장면 등으로 확장하여 Hailuo의 슬로건인 "모든 아이디어는 블록버스터"에서 제안한 대로 창의성을 더욱 발휘할 것입니다.
MiniMax가 2023년 XNUMX월에 비디오 모델을 출시한 이래로 생성된 이미지의 품질과 부드러움, 일관성과 안정성 등에서 국제적으로 많은 수의 사용자를 꾸준히 유치했으며, 많은 긍정적인 피드백과 전문적인 인정을 받았습니다.


작년의 기술 경쟁에서 AI 비디오 생성 분야의 경쟁 구도가 처음 나타났습니다. Sora의 구현은 비디오 생성의 잠재력을 보여주었고, 주요 기술 회사들이 이 분야에 막대한 투자를 하게 되었습니다.
소라의 제품 출시가 2024년 말로 연기되고 사용자 리뷰도 평균에 그치면서 시장 기대치를 충족하지 못해 다른 업체가 시장을 장악할 기회를 주었습니다.
이제 생성적 비디오가 하반기에 접어들면서 실제로 기술력과 개발 잠재력을 보여준 회사는 MiniMax의 Hailuo AI, Kuaishou의 Keling AI, ByteDance의 Jimeng AI 등 3개 회사뿐입니다.
불과 2년 전에 설립된 스타트업인 MiniMax는 린 스타트업 규모로 최고 수준에서 경쟁할 수 있는 제품과 기술을 가져왔습니다. 01년 2023월의 I2V-01-Live 이미지-비디오 모델부터 새로운 SXNUMXV-XNUMX 모델까지, 그들은 이전 비디오 세대의 과제를 해결해 왔습니다.
기술이 계속 성숙해지고 응용 시나리오가 확장됨에 따라 비디오 생성 AI는 콘텐츠 제작, 영화 제작, 마케팅 및 커뮤니케이션에서 새로운 혁명을 일으킬 것입니다. 중국 비디오 생성 AI 분야에서 최고 수준을 대표하는 이러한 회사는 중국 시장을 선도할 뿐만 아니라 국제적 거대 기업과 글로벌하게 경쟁할 것으로 예상됩니다. 한편, 기술 혁신을 유지하면서 제품 안정성과 제어 가능성을 보장하는 것은 이러한 기업에 지속적인 과제가 될 것입니다.
출처 이판르
면책 조항: 위에 제시된 정보는 Chovm.com과 독립적으로 ifanr.com에서 제공합니다. Chovm.com은 판매자와 제품의 품질과 신뢰성에 대해 어떠한 진술과 보증도 하지 않습니다. Chovm.com은 콘텐츠의 저작권과 관련된 위반에 대한 모든 책임을 명시적으로 부인합니다.