AIビデオイノベーション：ハンズフリーカード描画革命 -

「イカゲーム」を見ても満足できない？自分だけのエンディングを作りましょう。

『デューンパート 3』が待ちきれないですか? 自分だけのバージョンを作ってみませんか。

以前は、キャラクターの外見の一貫性を保つのにかなりの時間を要していました。今では、スクリーンショットだけで AI がムービーの作成を開始できます。

これは、新しい S2V-01 モデルを搭載した Conch AI の「被写体参照」機能のおかげです。アップロードされた画像の被写体を正確に識別し、生成されたビデオのキャラクターとして設定します。残りは簡単です。基本的な指示に従って自由に作成します。

正確な顔情報の保持を示すGIF — _{X ユーザー @KarolineGeorges による作品。顔の正確な情報を保持しています。}

多様な主題を示すGIF — _{X ユーザー @Apple_Dog_Sol による作品。多様なテーマを紹介しています。}

「件名参照」機能の利点

多くの企業が「サブジェクト参照」機能を開発していますが、安定性と一貫性、特に動きの一貫性を維持するという課題に取り組める企業は多くありません。

他の AI が苦戦する中、Conch AI は優れています。たった 1 枚の画像から、キャラクターの特徴を正確に理解し、被写体として識別し、さまざまなシーンに配置します。

スパイダーマンは、ある瞬間には世界を救っていますが、次の瞬間にはバイクに乗っています。

「ゲーム・オブ・スローンズ」ではドラゴンを訓練しているはずのドラゴンの母が、今は小さなオオカミと遊んでいる。

「被写体参照」の画期的な点は、創造の自由と忠実性のバランスを実現することです。これは、監督の要求に応じて、あらゆるシーンであらゆるアクションを演じ、外見が歪むことなく、動作やポーズに合わせて自然に変化する「万能俳優」をクリエイターに提供するようなものです。

単なる新機能ではなく、独自の技術的ソリューション

実際のテスト経験から、主題参照はテキストから画像への生成や画像から画像への生成と比較して異なる機能であり、異なる技術的課題と要件があることがわかります。

従来の画像からビデオへの生成では、主に部分的な変更を加えて、静止画像をアニメーション化するだけです。たとえば、ソン・ヘギョのこの静止画では、画像からビデオへの生成によって、静止画像が限られた範囲で大きな動きのない動画像に変換されるだけです。

「被写体参照」は、同じ写真を使用して、テキストプロンプトに基づいて完全なセグメントを作成し、安定した顔の特徴を維持しながら自由な動きを可能にします。

ソン・ヘギョの生成されたビデオ — _{暖かい室内照明、劇場の観客席、黒いスーツを着た主人公が列の中央左に座っている。彼女の表情は集中しており、時折軽く微笑み、自然にリズミカルに拍手している。カメラは彼女の横から始まり、他の観客のシルエットと薄暗い座席の質感を捉え、環境の奥行きを強調している。カメラが近づくと、主人公が立ち上がる。}

現在、被写体の動画を生成するための技術的な方法は 2 つあります。1 つは、事前トレーニング済みの大規模な生成モデルを微調整する LoRA テクノロジに基づいています。LoRA では、新しい動画を生成するときに膨大な計算量が必要になるため、ユーザーは同じ被写体の複数の角度をアップロードする必要があり、品質を確保するためにセグメントごとに異なる要素を指定する必要があります。これには多くのトークンも消費され、長い待ち時間も必要です。

MiniMax は、広範囲にわたる技術的調査を経て、画像参照に基づくルートを選択しました。画像には最も正確な視覚情報が含まれており、実際の撮影のクリエイティブロジックと一致しています。このルートでは、画像の主人公がモデルにとって認識の最優先事項であり、後続のシーンやプロットに関係なく、被写体は一貫している必要があります。

その他の視覚情報はよりオープンで、テキストプロンプトによって制御されます。このアプローチにより、「正確な再現+高い自由度」という目標を達成します。

キャラクターはドラゴンの前に立っており、髪とドレスが風になびいています。 — _{谷間の空き地で、主人公は長い髪を風になびかせながらドラゴンの前に立っています。カメラは徐々にズームアウトし、遠くを見つめる主人公を捉えます。ドラゴンの翼が広がり、主人公の髪とドレスを吹き飛ばし、シーンは頭上ショットで終わります。}

このビデオでは、モデルにドラゴンクイーンの写真が 1 枚だけ提供されました。最終的に生成されたビデオでは、プロンプトで言及されたカメラ言語と視覚要素が正確に表現されており、高い理解が示されました。

LoRA ソリューションと比較すると、この技術的アプローチでは、ユーザーがアップロードする必要のある素材の量が大幅に削減され、数十のビデオセグメントが 1 つの画像に変換されます。待機時間は秒単位で測定され、テキストや画像の生成にかかる時間と同様に感じられます。つまり、画像からビデオへの変換の正確さと、テキストからビデオへの変換の自由度が組み合わされています。

多様なニーズに応える中国製造業のハイライト

複数のニーズがあるというのは、過剰な要求ではありません。正確で一貫性のあるキャラクター画像と自由な動きを同時に実現することによってのみ、モデルは単なるエンターテイメント用途を超え、産業用途においてより幅広い価値を持つことができます。

例えば、商品広告では、モデル画像 1 枚からプロンプト語を変更するだけで、さまざまな商品ビデオを直接生成できます。

画像から動画への変換方法を使用する場合、現在主流のソリューションは最初と最後のフレームを設定することですが、その効果は既存の画像によって制限されます。また、さまざまな角度を収集し、素材をつなぎ合わせて一連のショットを完成させるという試行を繰り返す必要があります。

さまざまなテクノロジーの特性を組み合わせて、ビデオ作成ワークフローに適合させることが「サブジェクトリファレンス」の利点です。将来的には、マーケティング専門家の 80% 以上がさまざまな段階で生成ツールを使用し、ストーリーとプロットの構想のみに集中して、手を自由にするでしょう。

Statistaによると、広告とマーケティングにおける生成AI製品の市場規模は15年に2021億ドルを超えました。2028年までに、この数字は107.5億ドルに達するでしょう。以前のワークフローでは、純粋なテキストからビデオへの変換には制御できない要素が多すぎたため、作成の初期段階に適していました。欧米の広告およびマーケティング業界では、生成AIはすでに非常に一般的であり、使用例の52％がドラフトと計画、48％がブレインストーミングです。

現在、Hailuo AI はまず 1 つのキャラクターの参照機能を開放しています。将来的には、複数のキャラクター、オブジェクト、シーンなどに拡張され、Hailuo のスローガン「すべてのアイデアは大ヒット」が提案するように、創造性をさらに解き放ちます。

MiniMaxは2023年XNUMX月にビデオモデルをリリースして以来、生成された画像の品質と滑らかさから一貫性と安定性に至るまで、国際的に多数のユーザーを継続的に魅了し、多くの肯定的なフィードバックと専門家からの評価を受けています。

過去1年間の技術競争の中で、AIビデオ生成分野の競争環境が初めて出現しました。Soraの実装はビデオ生成の可能性を示し、大手テクノロジー企業がこの分野に多額の投資を行うよう促しました。

Soraの製品の発売が2024年末に遅れ、ユーザーレビューも平均的だったため、市場の期待に応えられず、他のプレーヤーに市場を奪取するチャンスを与えてしまいました。

ジェネレーティブビデオが後半に突入した現在、技術力と開発の可能性を真に発揮しているのは、MiniMax の Hailuo AI、Kuaishou の Keling AI、ByteDance の Jimeng AI の 3 社だけです。

MiniMax は設立からわずか 2 年で、その小規模なスタートアップ企業として、トップレベルで競争できる製品とテクノロジーをもたらしました。01 年 2023 月の I2V-01-Live 画像からビデオへのモデルから新しい SXNUMXV-XNUMX モデルまで、これまでのビデオ世代の課題を解決してきました。

技術が成熟し、応用範囲が広がるにつれ、動画生成AIはコンテンツ制作、映画制作、マーケティング、コミュニケーションの分野で新たな革命を起こすことになるでしょう。中国の動画生成AI分野で最高レベルを誇るこれらの企業は、中国市場をリードするだけでなく、国際的な大企業と世界的に競争することも予想されています。一方で、技術革新を維持しながら製品の安定性と制御性を確保することは、これらの企業にとって継続的な課題となるでしょう。

ソースから もし

免責事項: 上記の情報は、Chovm.com とは無関係に ifanr.com によって提供されています。Chovm.com は、販売者および製品の品質と信頼性について一切の表明および保証を行いません。Chovm.com は、コンテンツの著作権に関する違反に対する一切の責任を明示的に否認します。