Home » 製品調達 » 家電 » 将来のスマートフォンにおけるAIと画像処理に関するVivoのビジョン
Vivoのエグゼクティブバイスプレジデント兼最高執行責任者、胡白山氏。

将来のスマートフォンにおけるAIと画像処理に関するVivoのビジョン

2024年の最後の週に、iFanrなどのメディアは東莞にあるVivo本社を訪問し、Vivoの執行副社長兼最高執行責任者である胡白山氏と会話を交わしました。彼らは市場の動向、AIの進歩と応用、そしてVivo製品の将来の方向性と計画について話し合いました。これには、折りたたみ式スクリーン市場に関する考え、MRグラス、ヒューマノイドロボット、AIグラスに関する計画と見解、そしてVivoの強みであるイメージングが含まれていました。

東莞のVivo本社。

以下は製品レベルの会話の要約です (読みやすさのために iFanr によって編集されています)。

望遠とビデオには改善の余地あり。モバイル AI にはまだまだ課題が残る

Q: AI の現状についてどうお考えですか? 将来、AI はスマートフォンの主なセールスポイントとして画像処理に取って代わるでしょうか? フラッグシップ フォンは画像処理機能のピークに達しましたか?

胡白山: まず、イメージングについてお話ししましょう。私たちの最終的な目標は、ほとんどの DSLR カメラのシナリオを置き換えることなので、まだかなりの改善の余地があります。

前にも述べたように、X200 Proのメインカメラは、以前のフラッグシップの1インチセンサーから1/1.28インチセンサーに縮小されましたが、ユーザーエクスペリエンスは低下していません。これは、チップの処理能力と画像処理アルゴリズムが大幅に進歩したためです。これは、メインカメラのユーザーエクスペリエンスがまともなレベルに達したことを示しています。従来のDSLRを100点と仮定して点数をつけると、メインカメラは80~85点に近いです。

しかし、望遠や動画に関しては、DSLRと比べるとまだかなりの差があります。採点を続けると、メインカメラは80~85点、望遠は60点前後と、かろうじて合格点です。

コンサートのシナリオでは、X10 Pro は 200 倍ズームで優れたパフォーマンスを発揮し、20 倍ズームでは夜間に屋外から撮影した際に人物が誰であるかを判別できます。ただし、品質が十分ではないため、ユーザーはこれらの写真をソーシャル メディアで共有することをまだ躊躇していますが、10 倍なら見栄えは良いです。

望遠領域では、当社のスマートフォンの画像処理能力はDSLRとはかなりかけ離れています。当社は80~3年以内に望遠を5ポイントレベルまで向上させることを目指しており、このチャンスはまだ残っています。スマートフォンの内部スペースの利用は限界に達していますが、他に改善できる点はあるでしょうか?画像処理センサーの感度は技術によってさらに高めることができ、大型モデルや画像処理アルゴリズムには改善の余地が大いにあります。だからこそ、私はVivoが将来80ポイントの望遠を実現できると確信しています。

写真は比較的静的なので、アルゴリズムに余裕がありますが、ビデオは動的です。ビデオに大量のアルゴリズムを追加すると、消費電力に大きな負担がかかります。もちろん、ここでも改善の余地があります。チップは現在 3nm で、次の世代は 2nm になります。SoC チップ、さらには将来の専用画像処理チップも進化します。次のステップは、大規模モデル アルゴリズム機能をビデオに適用することですが、ビデオの全体的なロジックは動的であるため、アルゴリズムの強化機能は依然として弱いままです。

望遠であれ、動画であれ、ユーザーの高い要求を満たすにはまだかなりの距離があり、技術自体にも大きな発展の余地があります。そのため、イメージングは​​将来の主力スマートフォンにとって引き続き重要な焦点となります。

AIに関しては、確かに過去2年間で大規模なモデルの開発が急速に進んでいます。携帯電話自体に戻ると、AIにはまだ限界があります。携帯電話の最大の問題は、コンピューティング能力が不十分なことです。私はモバイルAIを3つの段階に分けます。

最初の段階は、AI 機能を使用して過去の機能を強化することです。たとえば、最近では、モバイル業界全体で AI 削除がかなり人気になっています。これは、10 年以上前に存在していたものの、原始的なアルゴリズムのためにうまく実行されなかった機能です。

かつて、ディープラーニングを使用した音声認識機能の成功率は、せいぜい 90% でした。このような成功率では、各ステップで歪みが大きくなり、会話を何ラウンドも続けることはできませんでした。生成型大規模モデルの登場により、音声認識と意味理解機能が大幅に向上しました。NEX 3 で初めて導入された「電話秘書」という機能では、従来の AI であることがすぐにわかり、数文話した後で通話が切られていました。今では AI サポートにより、短時間で AI が話していることがわからなくなります。

これらは依然として特定の機能またはモジュールの強化に基づいており、汎用人工知能 (AGI) からは程遠いものです。

2 番目の段階は、大規模なモデル機能をシステムに統合することだと私は考えています。たとえば、以前はメニュー オプションが多すぎてごちゃごちゃしていたため、機能設定を見つけることはほとんど不可能でした。将来、AI がシステムに深く統合されると、電話はユーザーの意図を明確に理解し、次に何をすべきかを知るようになり、電話でのやり取りがよりインテリジェントになります。たとえば、「Atomic Island」での私たちの最初の試みは、ユーザーの意図を理解してソリューションを提案することです。この段階のユーザー エクスペリエンスは、現在のコンピューティング パワーではほとんど対応できないため、この段階はかなり長く続くでしょう。

2024番目の段階は、VDC 85カンファレンスで言及したPhoneGPTです。デモした機能はテイクアウトの注文で、うまくできました。しかし、各ステップの成功率はXNUMX%しかなく、XNUMXステップを超えると先に進めなくなり、時間がかかりました。この体験は単なるモデルであり、ユーザーエクスペリエンスはまったく良くありません。

PhoneGPT の要件を真に達成するには、コンピューティング能力に対する需要がわずかな増加ではなく、大幅な増加が必要です。現在の統合アーキテクチャ、パッケージング アーキテクチャ、帯域幅では不十分です。PhoneGPT を真に達成するには、全体的な機能要件が現在の高速ストレージ、サーバー側機能、帯域幅機能、および SoC アーキテクチャに近づく必要があります。

これはイメージングに似ています。ユーザーの需要がすでに現れていることがわかります。多くのモデルがクラウドサーバー上で実行されています。当社の内部コンピューティングパワーセンターには約10,000枚のコンピューティングカードがあり、130Bパラメータのモデルなど、多くのモデルがクラウド上で実行できますが、この規模は電話では実行できません。電話で実行できるのは、2Bまたは3Bパラメータのモデルのみです。したがって、電話でPhoneGPTを真に実現するには、ユーザーエクスペリエンスの要件を満たすのに少なくともXNUMX年かかると見積もっています。

AIトラックは現在まだ第0段階にあります。これは段階的な改善であり、1から0への飛躍ではありません。したがって、ユーザーが1からXNUMXへの飛躍を経験していないため、AIは現在の携帯電話の交換サイクルの大きな原動力ではありません。そのような飛躍が起こり、ユーザーがPhoneGPTで多くのことができることを発見したときにのみ、携帯電話をアップグレードしたいという強い願望が生まれます。

私は製品と技術の両方に責任を負っているため、私が明らかにするものは、当社の技術または業界全体の技術の現在のレベルを反映するものでなければなりません。 

Q:スマートフォン業界では、どのような側面が新しい生産性の質を反映しており、どの部分が最も重要ですか?

胡白山: スマートフォン業界は、新しい品質の生産性の好例です。私の理解では、新しい品質の生産性には、ハイテクノロジー、高品質、高ダイナミズムという 3 つの特徴と、4 つの新機能があります。これらの基準では、スマートフォンは新しい品質の生産性のカテゴリに分類されます。長年にわたり、スマートフォンでは新しいテクノロジーが継続的に更新されてきました。

私たちは、イメージングと AI という 2 つの分野に重点を置いています。イメージング分野では、過去 5 年間で、さまざまな状況下でのスマートフォンの写真撮影が急速に向上していることが注目されています。これは急速な進歩です。

スマートフォンは、私たちが過去に使用していた多くのデジタルカメラに取って代わり、ミラーレスカメラや、場合によっては DSLR に取って代わりました。より多くの消費者が、より良い写真効果のためにお金を払い、それを実現するためにスマートフォンにもっとお金を費やしています。

2024年には、私たちが「コンサートマジックデバイス」と呼んでいるX100 UltraとX200 Proを発売します。近年コンサートが頻繁に開催されており、消費者はこうした美しい瞬間を捉えたいと考えています。コンサートにスマートフォンが必要なのはなぜでしょうか?DSLRはコンサート会場に持ち込めないため、消費者はこうした瞬間を捉えるためにスマートフォンしか使えません。

AIの分野も同様です。AIはまだ始まったばかりですが、スマートフォンの多くの領域に力を与えています。スマートフォン業界は、新しい品質の生産性の代表として、間違いなく重要な意味を持つと思います。また、スマートフォンは長い間、新しい品質の生産性に貢献する中核的な消費者向け電子製品であり続けると信じています。

テーブルの上に置かれたVivo X200スマートフォン。

Vivo MRプロトタイプは2026年に登場、ヒューマノイドロボットはXNUMX年で成熟予定

Q: Vivo は MR (複合現実) とヒューマノイド ロボットの分野でどのように進歩していますか?

胡白山: 当社の MR の進歩は比較的速いです。Vivo MR チームは 500 人近くにまで成長しました。私たちの目標は、2025 年 XNUMX 月または XNUMX 月までに、全国約 XNUMX 都市の Vivo ストアで高忠実度の MR 体験プロトタイプを利用できるようにすることです。予約から現場での体験まで、誰もが試せる標準化されたプロセスを作成することを目指しています。

商業化のためには、MRエコシステム全体を検討する必要がありますが、これには依然としてエンターテインメントとゲームコンテンツが必要です。Vivoはコンテンツを制作していないため、エコシステムが時間内に一致することに依存しています。多くの兆候が、業界が好ましい方向に進んでいることを示しています。テンセントはコンテンツへの投資を増やしています。以前はハードウェアを作りたかったのですが、最近はソフトウェアに重点を置くことを決定しました。これは私たちにとって良いことです。

私は MR チームに、私たちが不可欠と考えるシナリオを見つけることを求めています。ターゲット ユーザーがニッチであっても問題ありませんが、彼らにとって MR は不可欠なものでなければなりません。

たとえば、携帯電話やゲーム機でプレイするゲームは一定のレベルにあります。MR が登場すると、ユーザーはそれらのゲームが標準以下だったことに気づき、体験が大幅に向上します。MR デバイスを常に持ち歩いているわけではないことを除けば、ほとんどの場合、ゲームをプレイする時間があるときは MR に頼ることになります。これは重要なシナリオです。

ヒューマノイドロボットに関しては、2024年にこのコンセプトにも言及しました。需要は明らかで、社会は急速に高齢化しています。

トレンドの観点から見ると、ロボットは確かに1つの方向性を示しています。私たちはロボットの重要な道筋をいくつか分析しましたが、その1つは空間認識です。MRは強力な空間認識機能を備えています。MRが十分に開発されれば、ロボットの空間認識は問題になりません。

ロボットには柔軟な手足や、強い判断力も必要です。理想のロボットを実現するには、10年以上かかると考えています。

空間認識能力や意思決定能力は短期的には完璧ではないが、特殊な作業を行う産業用ロボットのように、手足の能力は比較的急速に向上するだろう。

理想的なロボットの実現には 10 年から 15 年かかるかもしれませんが、段階的に実装することができます。たとえば、生産ラインのロボットのように「2 つの仕事」を行うような限定的な範囲から始めることができますが、将来的には「10 の仕事」をこなせるようにしたいと考えています。この機能を構築中ですが、製品のリリースはすぐには行われません。

社内でシナリオとユーザーの需要主導型と呼んでいるこれらのロボットには明確なニーズがあるが、技術的なソリューションの道筋は完全には明確ではないというのが、私たちの現在の考え方です。前回の画像処理に関する議論と同様に、ユーザーは DSLR レベルの写真撮影を望んでいます。ロボットには明確なユーザー シナリオのニーズがありますが、テクノロジーがそれに一致していません。今後 3 ~ 5 年で、テクノロジーの成熟度を把握します。これに基づいて、その中間点で特定のローカル シナリオを解決できる製品を設定できます。

つまり、AI 機能を含め、今後 3 ~ 5 年のテクノロジーの状況を把握する必要があります。この技術的機能に基づいて、理想的なシナリオで調整を行い、特定のニーズを満たすことができます。これが当社の社内製品サイクル計画です。

Q: AR 業界チェーンの成熟が加速しています。これについてどうお考えですか?

胡白山: AR 製品については、次のように理解しています。ユーザーの需要の観点から、メガネは重すぎてはなりません。ディスプレイ付きの AR メガネは 40 ~ 50 グラムほど重く、良い体験とは言えません。一部の AR メガネはディスプレイ機能が限られています。この分野にはまだ進出していませんが、ディスプレイなしのメガネは検討しています。どのような製品分野に取り組んでいるかに関係なく、ユーザーの基本的なニーズを特定し、製品が不可欠な特定のユーザー グループを見つける必要があります。最近、製品チームの同僚と話し合い、必須のユーザーとシナリオを特定したかどうかを尋ねました。彼らはいくつか見つけたと言い、それは理にかなっているように思えました。

多くのユーザーは、作業中に両手がふさがっています。誰かに手伝ってもらう必要がありますか? 2025人だけで両手がふさがっている場合、この問題を解決するには補助デバイスが必要です。携帯電話や他のデバイスでは、この問題をうまく解決できません。したがって、当社のMRデバイスの位置付けロジックは、そのような人々にとって不可欠であるというもので、私たちはこれらの人々を特定しました。製品が急速に進歩すれば、2026年末、遅くともXNUMX年までには登場する予定です。

テーブルの上に置かれた折りたたみ式スマートフォン。

折りたたみ式スクリーンの需要の変化、製品ペースは調整される

Q: 4年間成長してきた折りたたみ式携帯電話市場は停滞、あるいは衰退しています。vivoの折りたたみ式携帯電話の計画は何ですか?

胡白山: 当初、折りたたみ式スクリーンは製品形態の大きな変化であったため、メーカーは大きな期待を寄せていました。ユーザーニーズの観点から、折りたたみ式スクリーンを使っているのは誰でしょうか?

45つのグループは、私のように視力が低下しているXNUMX歳以上の人々です。折りたたみ式携帯電話は、ニュースを読んだりビデオを見たりするために大きな画面を必要とする老眼に関連する多くの問題を解決し、高齢者のニーズに応えています。

2 番目のグループには、ここにいるようなメディア専門家が含まれます。彼らは、私を含め、会社の電子メールやメッセージを管理するために、大量の情報を処理するために折りたたみ式の携帯電話を使用しています。

バーフォンで情報を扱うときは、通常は縦向きモードになっており、横向きモードに切り替える必要がありますが、これは良い体験ではなく、テキストも比較的小さくなります。

グループに関係なく、特定の人々のニーズに対応します。製品を作るときは、本質的なユーザーが誰であるかを理解する必要があります。折りたたみ式スクリーンが最初に登場したとき、多くのユーザーが好奇心から試してみましたが、自分には適していないことがわかりました。

私の友人は、WeChat、通話、テキストメッセージ以外には、ポートレートモードのDouyin(TikTok)を主に使用しているため、折りたたみ式の画面は役に立たず、折りたたみ式の携帯電話をもう購入しないと言っています。

前述のように、初期の開発後、残ったユーザーは重要なユーザーです。第 1 グループと第 2 グループの市場容量は比較的小さいです。ゲームなどの多くのシナリオでは、折りたたみ式スクリーンは理想的ではありません。バーフォンと比較して、放熱性と制御エクスペリエンスが悪いため、折りたたみ式スクリーンは特定のグループ向けの製品になっています。市場規模はこれらの特定のグループの規模に依存し、約 500 万台で安定する可能性があります。

私たちにとって、折りたたみ式のスマートフォンを作るべきでしょうか?はい。ユーザーのニーズという観点から言えば、そういったグループがありますが、それをコントロールする必要があります。前世代では、イメージングとパフォーマンスに重点を置いたモデルと、コスト効率に重点を置いたモデルの 2 つを作りました。数百万台の販売を計画していましたが、最終的には数十万台となり、それでもまだ限定的です。今後は、折りたたみ式の画面を必要とするユーザーが常に存在するため、毎年繰り返し改良してユーザー エクスペリエンスを向上させていきます。たとえば、一部のユーザーは、1 台のスマートフォンを毎日の WeChat やソーシャル インタラクションに使用し、別のスマートフォンを株式市場の更新や文書の承認に使用します。

また、小型折りたたみ製品については、2023年に世界市場は成長しましたが、2024年には主要ブランドの小型折りたたみ製品は30%~40%減少しました。Vivoが今後も小型折りたたみ製品を発売する可能性は低いでしょう。

テーブルの上に置かれたvivoスマートフォン。

フラッグシップスマートフォンの価格は引き続き上昇するが、サブフラッグシップの体験はすでにかなり良好

Q: フラッグシップ フォンの価格は 2025 年にわずかに上昇します。価格上昇は 2026 年も続きますか? vivo はコストと価格のバランスをどのように取っているのでしょうか?

胡白山: 価格上昇は41つの要因により継続すると考えています。68つ目は明らかです。主力のSoCプラットフォームと半導体プロセスは今後も改善されるため、価格上昇は避けられません。当社はSoCメーカーと交渉し、例えば利益率の一部を犠牲にして価格上昇を維持または減速させ、27ドルではなくXNUMXドルの値上げを行い、残りのXNUMXドルを翌年追加するなど、価格上昇を緩和するよう取り組んでいます。

2 つ目の要因は、望遠レンズなどのイメージングですが、これは完璧とは程遠いため、毎年投資を続ける必要があります。スペースは同じままですが、レンズの配置やモジュールの実装などの実装方法は大きく変わります。これらの変更により、歩留まりが低下し、製品コストが増加します。

フラッグシップフォンの価格が上昇傾向にあるのは避けられません。ほとんどの一般ユーザーにとって、サブフラッグシップの体験はすでにかなり良好です。たとえば、N-1プラットフォーム(前世代のフラッグシップチップを使用したサブフラッグシップフォン)は、ユーザーエクスペリエンスが大幅に向上しています。ユーザーの購買力を満たすために、N-1プラットフォーム製品にフラッグシップイメージングを含めることもできます。

つまり、ユーザーが画像、AI、ゲームで究極の体験を追求する場合、約68ドル多く費やす必要があります。究極の体験を追求しない場合、N-1プラットフォームは見た目が良く、まともな体験を提供します。最も激しいゲームをプレイせず、Genshin Impactのようなゲームのみをプレイするユーザーの場合、N-1プラットフォームで十分です。写真撮影の場合、コンサートで20倍ズームを必要とせず、10倍ズームで満足する場合は、標準のXシリーズでニーズを満たすことができます。

したがって、購買力が強く、究極の体験を求めるユーザーが上位に上がることになりますが、当社は引き続きユーザーのニーズを満たすために、適切な価格帯で優れた体験を提供する製品を提供していきます。

ソースから もし

免責事項: 上記の情報は、Chovm.com とは無関係に ifanr.com によって提供されています。Chovm.com は、販売者および製品の品質と信頼性について一切の表明および保証を行いません。Chovm.com は、コンテンツの著作権に関する違反に対する一切の責任を明示的に否認します。

コメント

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *

上へスクロール