Rednote で話題の AI ビデオツールがコンテンツ作成に革命をもたらす -

AI で生成されたビデオで一貫性を実現することは、常に困難でした。仮想モデルや衣服を生成するのは簡単ですが、イーロン・マスクが毛皮のコートを着るビデオを作成するのは、依然として複雑な作業です。

Pika の最近更新された 2.0 モデルは、巧妙なソリューションを提供します。複数の写真をアップロードすることで、Pika は特定の要素を参照して、驚くほど正確にビデオを生成できます。

人物、製品、設定の写真を提供することで、ユーザーはビジュアルが元の画像とほぼ一致する基本的なコマーシャルビデオを作成できます。

これは、AI がビデオの一貫性を解決し、広告主に新たな課題を生み出したことを意味するのでしょうか? 必ずしもそうではありません。Pika は使用するのが楽しいですが、実用性にはまだ改善の余地があります。

Pika で非現実的なシーンを作成する

Pika の「Scene Ingredients」と呼ばれる複数画像入力機能を使用すると、ユーザーは写真を組み合わせて独自のシナリオを生成できます。その仕組みは次のとおりです。

「+」ボタンをクリックして最大 6 枚の画像をアップロードします。
テキストボックスに簡単なプロンプトを追加します。

たとえば、イーロン・マスクとウルトラマンが一緒に映画を観ているとします。プロンプト: 2 人が暗い劇場に座り、ポップコーンを持ち、期待しながらスクリーンに集中しています...

写真をアップロードするだけで、プロンプトから劇場の環境が作成されます。イーロン・マスクはリアルに見えますが、ウルトラマンの外観は誇張されており、元の写真とはかけ離れているように感じられます。

Pika の際立った特徴は、要素を「再利用」できることです。たとえば、マスクとウルトラマンにマッチした緑のコートを着せて、ファッション写真撮影を行うことができます。

2人の写真はどちらも既成画像から引用した。緑のコートと氷のような雪の背景はAIを使って別々に生成され、コートに書かれた「AIGC」という文字がピカの課題となった。

結果、シーンとコートの間にはそれなりの一貫性があり、「AIGC」の文字もかすかに認識できました。モデルのポーズも指示通りでした。しかし、最大の問題は、この2人が誰なのかということです。ビデオと写真の顔は同一ではないかもしれませんが、まったく無関係です。

Pika を使用して生成された緑色のコートをフィーチャーしたファッションシーン。

次に、Pika の服装のカスタマイズをテストし、「私は人間だった」というフレーズが書かれた黒い T シャツを生成しました。マーク・ザッカーバーグの写真とウクレレの写真を追加して、音楽パフォーマンスを作成しました。

ピカは指示によく従い、カメラの動きもスムーズでした。服もシームレスに着られましたが、右手、特に親指はまだ完璧ではありません。

Google Veo や OpenAI Sora と比較すると、Pika のモデルは最高レベルではありません。1 つの問題を解決すると、より多くのエラーが明らかになることがよくあります。

リアルなスタイルを試した後は、アニメスタイルに切り替えましょう。坂田銀時とうずまきナルトを同じフレームに収めるために、背景に青い空と白い雲がある 2 つの画像を選択します。

背景は自然に溶け込み、表情もうまく捉えられており、髪や服に吹く風のエフェクトもうまくフィットしています。しかし、振り向くエフェクトはかなり不安を感じさせます。銀時の目は生気がなく、本当に目を後ろに引いているようには見えません。

また、有名な絵画を時代を超えて相互作用させることもできます。たとえば、マクドナルドでフライドポテトを食べているモナリザと真珠の耳飾りの少女などです。効果は理想的ではありません。モナリザを見ると、ダヴィンチが墓の中で身をよじるのではないかと考えてしまいます。キャラクターは、奇妙な頭の動きをしており、ビデオに貼り付けられたステッカーのように見えます。

時には、シンプルさに戻ると、予想外に良い結果が得られることがあります。スターバックスの画像とモネの「睡蓮」の絵をアップロードすると、「蓮のような」コーヒーカップが出来上がります。

中国製モデルと競合し、AIビデオの制御がより簡単になった

Pika は、ある程度、ビデオの制御性を向上させました。実際に見ると、完全に成功したわけではありませんが、Pika はシーン、衣服、オブジェクトの一貫性を維持していますが、顔はスタイルに関係なく歪む傾向があります。

さらに、ピカの基本的な能力には改善が必要です。食べることやピアノを弾くことなどの動作は、まだ困難です。これらの問題は、カードを引くことで軽減できるでしょうか?

一言で言えば、手頃な価格ではありません。Pika 2.0 は現在 Pro および Fancy ユーザーのみが利用可能で、無料トライアルなしで月額 35 ドル以上かかります。さらに、Pro ユーザーは月額 2000 ポイントしか得られませんが、Scene Ingredients 機能を使用するにはビデオ 100 本につき XNUMX ポイントかかります。

実は、中国製のAI動画モデルViduは、Pikaよりも早く「複数画像参照」機能を実装していました。ユーザーにとってさらに魅力的なのは、無料トライアルポイントを提供していることです。

私は Vidu で Pika のケースをいくつかテストしました。フライドポテトを食べているモナ・リザと真珠の耳飾りの少女は、地面から現れたばかりのように見えますが、モナ・リザのほうが Pika よりもよく似ています。

イーロン・マスクとウルトラマンが一緒に映画を見ている。マスクの顔は70～80％くらい正確だが、ウルトラマンの顔はまだよくない。

坂田銀時とうずまきナルトを同じフレームで再現したヴィドゥは正面顔から横顔を生成できるが、スタイルは元の画像と異なる。

さらに、Vidu には Pika と比べて制限があり、アップロードできる画像は最大 3 枚までです。そのため、私は Vidu を使用してマスクとウルトラマンのファッション撮影を行ったとき、背景を省いて、彼らの写真と緑のコートのみをアップロードしました。

結果は見慣れないものだった。顔の安定性を維持することが依然として課題であることは明らかだ。

Vidu と Pika を比較すると、意見が分かれるかもしれません。Pika はプロフェッショナル版を使用していますが、Vidu は無料版を使用しているため、いくつかの違いがあります。ただし、Pika と Vidu のアプローチは似ており、少数の画像素材と簡単なプロンプトを使用して、比較的安定したオブジェクトを生成します。

AI ビデオ生成では、被写体の一貫性の維持は、現在、LoRA ソリューションによってより確実に実現されています。これには、一定量の特定の被写体素材を使用してモデルを微調整することが含まれます。適切な素材とトレーニングにより、モデルはキャラクターの外観の特徴を徐々に学習します。

しかし、AI ビデオをよりアクセスしやすく、商業的に価値のあるものにするには、参入障壁を下げる必要があります。少なくとも Vidu と Pika には可能性があると考えています。

AI ショートビデオでバイラル化: 創造性への片道切符

Pika 2.0 モデルがリリースされてから間もなく、世界中のユーザーがすでに大喜びしていました。自分の写真を使ってさまざまなシーンのビデオを繰り返し生成することで、「インスタント宇宙旅行」を実現できました。AI を使えば、クリックするだけで服を試着できます。モデルと衣装がシームレスに流れるため、実際の撮影にかかるコストを節約できます。

Pika で遊んでいると、ビデオ内のキャラクターの衣装を決める「QQ Show」や「The Sims」をプレイしているときと似た感覚になりました。

マスク氏の「夢」を叶えたいなら、それは簡単です。まず、他の AI ツールを使用して、「火星を征服」T シャツと「MAGA」と書かれた赤い帽子を生成します。

次に、これらの画像、火星の風景、マスク氏の写真、彼のオプティマスプライムヒューマノイドロボット、そして彼のお気に入りのインターネットミームであるDogeプロトタイプをPikaにアップロードします。

最後に、左に犬、右にロボットを連れた、明るく陽気な若い男性が登場する。親しみやすい感じだが、マスク氏とは少し違う。

似ているかどうかは別問題です。心を開いていれば、可能性は無限です。自分や有名人の写真を使えば、簡単にファンダムに参加できます。帽子、服、楽器をアップロードして、頭からつま先まで着飾ってください。シーン、製品、モデルを集めれば、シンプルなコマーシャルビデオが完成します...

写真 + AI 画像 + Pika 2.0 + プロンプトは、多くの興味深いビジュアルを生成できます。この方法は、画像モデルで解決できる文章などのビデオモデルの欠点もいくつか回避します。Google のモデル機能と直接競合したり、Runway のハリウッドドリームと比較したりすることなく、Pika は独自のアプローチを採用しています。

Pika は常に創造性の達人であり、同社の AI 特殊効果機能の以前のシリーズである Pikaffect は RedNote や TikTok などのプラットフォームで人気となり、Pika のユーザーベースは 11 万人を超えました。