Accueil » Approvisionnement en produits » Electronique » La vision de Vivo pour l'IA et l'imagerie dans les futurs smartphones
Hu Baishan, vice-président exécutif et directeur de l'exploitation de Vivo.

La vision de Vivo pour l'IA et l'imagerie dans les futurs smartphones

Au cours de la dernière semaine de 2024, des médias comme iFanr se sont rendus au siège de Vivo à Dongguan pour s'entretenir avec le vice-président exécutif et directeur de l'exploitation de Vivo, Hu Baishan. Ils ont discuté de la dynamique du marché, des progrès et des applications de l'IA, ainsi que de l'orientation et de la planification futures des produits Vivo. Cela comprenait des réflexions sur le marché des écrans pliables, des projets et des points de vue sur les lunettes MR, les robots humanoïdes, les lunettes IA et le point fort de Vivo : l'imagerie.

Siège social de Vivo à Dongguan.

Vous trouverez ci-dessous un résumé de la conversation au niveau du produit (édité par iFanr pour plus de lisibilité) :

Le téléobjectif et la vidéo peuvent encore être améliorés ; l'IA mobile a encore un long chemin à parcourir

Q : Quel est votre point de vue sur l'état actuel de l'IA ? L'IA remplacera-t-elle l'imagerie comme principal argument de vente des smartphones à l'avenir ? Les téléphones phares ont-ils atteint leur apogée en matière de capacités d'imagerie ?

Hu Baishan : Commençons par l'imagerie. Notre objectif ultime est de remplacer la plupart des appareils photo reflex numériques, il y a donc encore une marge de progression importante.

Comme je l'ai mentionné précédemment, l'appareil photo principal du X200 Pro a été réduit du capteur 1 pouce du précédent flagship à un capteur 1/1.28 pouce, mais l'expérience utilisateur n'a pas diminué. Cela est dû au fait que la puissance de traitement de la puce et les algorithmes d'imagerie ont fait des progrès significatifs. Cela indique que l'expérience utilisateur de l'appareil photo principal a atteint un niveau décent. Si nous devions lui attribuer une note, en supposant qu'un reflex numérique conventionnel ait 100 points, notre appareil photo principal est proche de 80 à 85 points.

Cependant, en termes de téléobjectif et de vidéo, il y a encore un écart considérable par rapport aux reflex numériques. Si l'on continue à noter, l'appareil photo principal est de 80 à 85, tandis que le téléobjectif est d'environ 60 points, dépassant à peine.

Dans les scénarios de concert, avec un zoom 10x, notre X200 Pro fonctionne bien, et avec un zoom 20x, vous pouvez reconnaître la personne lorsque vous photographiez depuis la zone extérieure la nuit. Cependant, les utilisateurs hésitent encore à partager ces photos sur les réseaux sociaux car la qualité n'est pas assez bonne, mais 10x est présentable.

Dans le domaine du téléobjectif, nos smartphones sont assez éloignés de ceux des reflex numériques. Nous avons pour objectif d'améliorer le téléobjectif à un niveau de 80 points d'ici 3 à 5 ans, et cette opportunité existe toujours. Bien que l'utilisation de l'espace interne des smartphones ait atteint sa limite, où pouvons-nous encore nous améliorer ? La sensibilité des capteurs d'image peut encore être améliorée grâce à la technologie, et il existe une marge de progression importante dans les grands modèles et les algorithmes d'imagerie. C'est pourquoi je suis convaincu que Vivo peut atteindre un téléobjectif de 80 points à l'avenir.

La photographie est relativement statique, les algorithmes ont donc plus de marge de manœuvre, mais la vidéo est dynamique. Ajouter un tas d'algorithmes à la vidéo exercerait une pression énorme sur la consommation d'énergie. Bien sûr, il y a aussi de la place pour l'amélioration. Les puces sont maintenant à 3 nm, et la prochaine génération sera à 2 nm. Les puces SoC, et même les futures puces de traitement d'images dédiées, progresseront. Notre prochaine étape consiste à appliquer les capacités des algorithmes de grands modèles à la vidéo, mais la logique globale de la vidéo est dynamique, donc la capacité d'amélioration de l'algorithme sera toujours plus faible.

Qu'il s'agisse de téléobjectif ou de vidéo, il reste encore beaucoup à faire pour répondre aux exigences élevées des utilisateurs, et la technologie elle-même a une marge de développement importante. Par conséquent, la photographie reste un objectif clé pour les futurs smartphones phares.

En ce qui concerne l’IA, le développement de grands modèles a été rapide au cours des deux dernières années. Pour en revenir au téléphone lui-même, l’IA a toujours ses limites. Le plus gros problème des téléphones est le manque de puissance de calcul. Je divise l’IA mobile en trois étapes :

La première étape consiste à améliorer les fonctions passées avec des capacités d’IA. Par exemple, ces derniers temps, l’ensemble du secteur de la téléphonie mobile s’est montré très favorable à la suppression de l’IA, une fonctionnalité qui existait il y a plus de dix ans mais qui était mal exécutée en raison d’algorithmes primitifs.

Par le passé, les capacités de reconnaissance vocale utilisant l'apprentissage profond avaient un taux de réussite de seulement 90 % au mieux. Avec un tel taux de réussite, on se rendait compte que les conversations ne pouvaient pas durer plusieurs tours, car chaque étape était trop déformée. Avec l'émergence des grands modèles génératifs, les capacités de reconnaissance vocale et de compréhension sémantique se sont considérablement améliorées. Nous avions une fonctionnalité appelée Phone Secretary, introduite pour la première fois sur le NEX 3, qui permettait aux gens de savoir immédiatement qu'il s'agissait d'une IA traditionnelle, et l'appel était raccroché après quelques phrases. Désormais, grâce à la prise en charge de l'IA, les gens ne peuvent plus savoir que c'est l'IA qui parle en peu de temps.

Celles-ci reposent encore sur l’amélioration d’une fonction ou d’un module spécifique, loin de l’intelligence artificielle générale (AGI).

La deuxième étape consiste, je crois, à intégrer les capacités d’un grand modèle dans le système. Par exemple, par le passé, il était quasiment impossible de trouver un paramètre de fonction car il y avait trop d’options de menu, toutes mélangées. À l’avenir, grâce à l’IA profondément intégrée au système, les téléphones comprendront clairement vos intentions et sauront quoi faire ensuite, ce qui rendra les interactions téléphoniques plus intelligentes. Par exemple, notre première tentative avec « Atomic Island » consiste à comprendre vos intentions et à proposer des solutions. Cette étape durera un certain temps car l’expérience utilisateur à ce stade peut à peine être satisfaite par la puissance de calcul actuelle.

La troisième étape est celle que nous avons évoquée lors de la conférence VDC 2024, PhoneGPT. La fonctionnalité que nous avons démontrée était la commande de plats à emporter, et elle pouvait être réalisée avec succès. Cependant, chaque étape n'avait qu'un taux de réussite de 85 % et après trois étapes, elle ne pouvait pas se poursuivre et cela prenait beaucoup de temps. Cette expérience n'est qu'un modèle et l'expérience utilisateur n'est pas du tout bonne.

Pour répondre véritablement aux exigences de PhoneGPT, la demande en puissance de calcul ne doit pas être seulement une légère augmentation, mais une augmentation significative. L'architecture intégrée, l'architecture de packaging et la bande passante actuelles sont insuffisantes. Pour vraiment atteindre PhoneGPT, l'ensemble des exigences en matière de capacités doivent être proches des capacités actuelles de stockage à haut débit, des capacités côté serveur, des capacités de bande passante et de l'architecture SoC pour avoir une chance.

C'est similaire à l'imagerie. Nous pouvons voir que la demande des utilisateurs est déjà apparue. De nombreux modèles fonctionnent sur des serveurs cloud. Notre centre de puissance de calcul interne dispose de près de 10,000 130 cartes de calcul et de nombreux modèles peuvent fonctionner sur le cloud, comme les modèles avec des paramètres 2B, mais cette échelle ne peut pas fonctionner sur les téléphones. Les téléphones ne peuvent exécuter que des modèles avec des paramètres 3B ou XNUMXB. Ainsi, pour vraiment réaliser PhoneGPT sur les téléphones, j'estime qu'il faudra au moins cinq ans pour répondre aux exigences de l'expérience utilisateur.

L'IA est actuellement encore dans sa deuxième phase. Il s'agit d'une amélioration progressive, et non d'un bond de 0 à 1. Par conséquent, l'IA n'est pas un moteur important du cycle actuel de remplacement des téléphones, car les utilisateurs n'ont pas connu de bond de 0 à 1. Ce n'est que lorsqu'un tel bond se produira et que les utilisateurs découvriront que PhoneGPT peut faire tant de choses qu'ils auront une forte envie de mettre à niveau leurs téléphones.

Étant donné que je suis responsable à la fois des produits et de la technologie, ce que je révèle doit refléter le niveau actuel de notre technologie ou de la technologie de l’ensemble de l’industrie. 

Q : Dans l’industrie des smartphones, quels aspects reflètent la nouvelle qualité de productivité et quels éléments sont les plus importants ?

Hu Baishan : L'industrie des smartphones est un parfait exemple de productivité de qualité nouvelle. D'après ce que je comprends, la productivité de qualité nouvelle se caractérise par trois caractéristiques : la haute technologie, la haute qualité et le dynamisme élevé, ainsi que par quatre nouvelles fonctionnalités. Selon ces critères, les smartphones entrent dans la catégorie de la productivité de qualité nouvelle. Au fil des ans, nous avons assisté à des mises à jour continues des nouvelles technologies des smartphones.

Nous nous concentrons principalement sur deux domaines : l'imagerie et l'IA. Dans le domaine de l'imagerie, au cours des cinq dernières années, les gens ont remarqué l'amélioration rapide de la photographie sur smartphone dans diverses conditions. Il s'agit d'une avancée rapide.

Les smartphones ont remplacé de nombreux appareils photo numériques que nous utilisions par le passé, y compris les appareils photo sans miroir et, dans certains cas, les reflex numériques. De plus en plus de consommateurs sont prêts à payer pour de meilleurs effets photographiques et dépensent plus d'argent sur les téléphones pour y parvenir.

En 2024, nous lancerons les X100 Ultra et X200 Pro, que nous appelons les « appareils magiques de concert ». Les concerts sont fréquents ces dernières années et les consommateurs veulent capturer ces beaux moments. Pourquoi les concerts ont-ils besoin de smartphones ? Les reflex numériques ne peuvent pas être apportés dans les salles de concert, les consommateurs ne peuvent donc utiliser que des téléphones pour capturer ces moments.

Le domaine de l'intelligence artificielle est similaire. L'intelligence artificielle n'en est qu'à ses débuts, mais elle a permis de renforcer de nombreux domaines des smartphones. Je pense que l'industrie des smartphones, en tant que représentant d'une nouvelle productivité de qualité, est sans aucun doute importante. Je pense également que pendant longtemps, les smartphones resteront le produit électronique de base du consommateur, contribuant à une nouvelle productivité de qualité.

Smartphone Vivo X200 affiché sur une table.

Le prototype Vivo MR arrive en 2026, les robots humanoïdes arriveront à maturité dans dix ans

Q : Comment Vivo progresse-t-il dans le domaine de la MR (réalité mixte) et des robots humanoïdes ?

Hu Baishan : Nos progrès en matière d'IRM sont relativement rapides. L'équipe Vivo IRM compte désormais près de 500 personnes. Notre objectif est de proposer un prototype d'expérience IRM haute fidélité dans les magasins Vivo d'une douzaine de villes à travers le pays d'ici septembre ou octobre 2025. De la réservation à l'expérience sur site, nous souhaitons créer un processus standardisé pour que tout le monde puisse l'essayer.

Pour la commercialisation, nous devons examiner l'ensemble de l'écosystème MR, qui nécessite toujours du contenu de divertissement et de jeu. Comme Vivo ne produit pas de contenu, nous comptons sur l'écosystème pour s'adapter dans le temps. De nombreux indicateurs montrent que l'industrie évolue dans une direction favorable. Tencent augmente ses investissements dans le contenu. Auparavant, ils voulaient fabriquer du matériel, mais récemment, ils ont décidé de se concentrer sur les logiciels, ce qui est une bonne chose pour nous.

J'exige que l'équipe MR trouve des scénarios que nous considérons comme essentiels. Peu importe si le public cible est de niche, mais pour eux, MR doit être indispensable.

Par exemple, les jeux joués sur les téléphones ou les consoles ont atteint un certain niveau. Lorsque la réalité augmentée arrivera, les utilisateurs se rendront compte que ces jeux étaient de qualité inférieure et l'expérience sera considérablement améliorée. À part le fait de ne pas avoir d'appareils de réalité augmentée avec eux en permanence, la plupart du temps, lorsqu'ils ont le temps de jouer à des jeux, ils se tourneront vers la réalité augmentée. C'est un scénario essentiel.

Concernant les robots humanoïdes, en 2024, nous avons également évoqué ce concept. La demande est claire : la société vieillit rapidement.

Du point de vue des tendances, les robots représentent effectivement une orientation. Nous avons analysé certaines voies clés pour les robots, dont l'une est la perception spatiale. La RM possède de fortes capacités de perception spatiale. Une fois que la RM sera bien développée, la perception spatiale des robots ne sera plus un problème.

Les robots nécessitent également des mains et des pieds flexibles et une forte capacité de prise de décision. Pour parvenir au robot idéal, nous pensons qu'il faudra plus de dix ans.

La perception spatiale et les capacités de prise de décision ne seront pas parfaites à court terme, mais les capacités des mains et des pieds s'amélioreront relativement rapidement, comme des robots industriels effectuant des tâches spécialisées.

Il faudra peut-être dix à quinze ans pour mettre au point le robot idéal, mais nous pouvons le mettre en œuvre par étapes. Par exemple, nous pouvons commencer avec une gamme limitée, comme des robots de chaîne de production, qui pourraient effectuer « deux tâches », mais nous espérons pouvoir effectuer « dix tâches » à l'avenir. Nous développons cette capacité, mais la sortie du produit ne se fera pas rapidement.

Notre logique actuelle est que ces robots, que nous appelons en interne « axés sur les scénarios et les demandes des utilisateurs », ont des besoins clairs, mais la solution technique n'est pas totalement claire. Comme dans notre discussion précédente sur l'imagerie, les utilisateurs veulent des photos de niveau DSLR. Les robots ont des besoins clairs en termes de scénarios d'utilisation, mais la technologie n'y correspond pas. Dans les trois à cinq prochaines années, nous comprendrons l'état de maturité technologique. Sur cette base, nous pourrons définir un produit capable de résoudre certains scénarios locaux à ce point médian.

En bref, nous devons comprendre l’état de la technologie dans les trois à cinq prochaines années, y compris les capacités de l’IA. Sur la base de ces capacités technologiques, nous pouvons procéder à certains ajustements dans des scénarios idéaux pour répondre à des besoins spécifiques. Il s’agit de notre plan de cycle de produit interne.

Q : La chaîne industrielle de la réalité augmentée mûrit plus rapidement. Qu'en pensez-vous ?

Hu Baishan : Pour les produits AR, nous les comprenons ainsi : du point de vue de la demande des utilisateurs, les lunettes ne doivent pas être trop lourdes. Les lunettes AR avec écran sont lourdes, environ 40 à 50 grammes, ce qui n'est pas une bonne expérience. Certaines lunettes AR ont des capacités d'affichage limitées. Nous ne nous sommes pas encore aventurés dans cette catégorie, mais nous envisageons des lunettes sans écran. Quelle que soit la catégorie de produits sur laquelle nous travaillons, nous devons identifier les besoins de base des utilisateurs et trouver un groupe d'utilisateurs spécifique pour lequel le produit est essentiel. Récemment, j'ai discuté avec des collègues de l'équipe produit et je leur ai demandé s'ils avaient identifié les utilisateurs et les scénarios essentiels. Ils ont dit qu'ils en avaient trouvé certains, et cela semblait raisonnable.

De nombreux utilisateurs ont les mains occupées pendant qu'ils travaillent. Ont-ils besoin de quelqu'un d'autre pour les aider ? S'il n'y a qu'une seule personne et que ses mains sont occupées, un appareil auxiliaire est nécessaire pour résoudre ce problème. Les téléphones portables ou d'autres appareils ne peuvent pas résoudre ce problème correctement. Par conséquent, la logique de positionnement de notre appareil MR est qu'il est essentiel pour ce groupe de personnes, et nous avons identifié ces personnes. Si le produit progresse rapidement, il apparaîtra d'ici fin 2025, ou au plus tard en 2026.

Un smartphone pliable affiché sur une table.

L'évolution de la demande d'écrans pliables et le rythme des produits s'ajusteront

Q : Le marché des téléphones pliables, en croissance depuis 4 ans, stagne, voire décline. Quel est le plan de vivo pour les téléphones pliables ?

Hu Baishan : Au départ, les fabricants avaient de grandes attentes vis-à-vis des écrans pliables, car il s'agissait d'un changement important dans la forme du produit. Du point de vue des besoins des utilisateurs, qui utilise les écrans pliables ?

Un groupe de personnes est celui des personnes de plus de 45 ans, comme moi, dont la vue se détériore. Les téléphones pliables ont résolu de nombreux problèmes liés à la presbytie, car ils ont besoin d'écrans plus grands pour lire les actualités ou regarder des vidéos, répondant ainsi aux besoins des personnes âgées.

Le deuxième groupe comprend des professionnels des médias comme ceux présents ici. Ils utilisent des téléphones pliables pour traiter une grande quantité d'informations, dont moi-même, pour gérer les e-mails et les messages de l'entreprise.

Lors de la manipulation d'informations sur un téléphone à barre, c'est généralement en mode portrait et il faut passer en mode paysage, ce qui n'est pas une bonne expérience, et le texte est relativement petit.

Quel que soit le groupe, il répond aux besoins de personnes spécifiques. Lors de la fabrication de produits, nous devons comprendre qui sont les utilisateurs essentiels. Lorsque les écrans pliables sont apparus pour la première fois, de nombreux utilisateurs les ont essayés par curiosité, mais ils ont constaté qu'ils ne leur convenaient pas.

J'ai un ami qui a dit qu'en plus d'utiliser le téléphone pour WeChat, les appels et les SMS, il utilise principalement Douyin (TikTok), qui est en mode portrait, donc l'écran pliable est inutile pour lui, et il n'achètera pas un autre téléphone pliable.

Après le développement initial, les utilisateurs restants sont les plus essentiels, comme mentionné précédemment. La capacité du marché pour les premier et deuxième groupes est relativement faible. Dans de nombreux scénarios, comme le jeu, les écrans pliables ne sont pas idéaux. Ils ont une moins bonne dissipation de la chaleur et une expérience de contrôle inférieure à celle des téléphones à barre, de sorte que les écrans pliables sont devenus des produits pour des groupes spécifiques. La taille du marché dépend de l'échelle de ces groupes spécifiques et pourrait se stabiliser autour de cinq millions d'unités.

Pour nous, devrions-nous fabriquer des téléphones pliables ? Oui. Du point de vue des besoins des utilisateurs, il y a ces groupes, mais nous devons les contrôler. Dans la génération précédente, nous avons fabriqué deux modèles, l'un axé sur l'image et les performances, l'autre sur la rentabilité. Nous avions prévu des millions d'unités à vendre, mais nous avons fini par en vendre des centaines de milliers, ce qui est encore limité. À l'avenir, nous allons itérer chaque année pour améliorer l'expérience utilisateur, car il y aura toujours des utilisateurs qui auront besoin d'écrans pliables. Par exemple, certains utilisateurs utilisent un téléphone pour WeChat quotidien et les interactions sociales et un autre téléphone pour les mises à jour boursières et les approbations de documents.

En outre, le marché mondial des petits produits pliables a connu une croissance en 2023, mais en 2024, les produits pliables de petites marques ont diminué de 30 à 40 %. Il est peu probable que Vivo commercialise des petits produits pliables à l'avenir.

Un smartphone vivo affiché sur une table.

Les prix des téléphones phares continueront d'augmenter, l'expérience des téléphones sous-phares est déjà plutôt bonne

Q : Les prix des téléphones phares augmenteront légèrement en 2025. L'augmentation des prix se poursuivra-t-elle en 2026 ? Comment vivo équilibre-t-il les coûts et les prix ?

Hu Baishan : Nous pensons que la hausse des prix va se poursuivre en raison de deux facteurs. Le premier est clair : la plateforme phare SoC et le processus de fabrication des semi-conducteurs continueront de s'améliorer, de sorte que les hausses de prix sont inévitables. Nous négocions avec les fabricants de SoC pour modérer la hausse des prix, par exemple en sacrifiant certaines marges bénéficiaires pour maintenir ou ralentir la hausse des prix, par exemple en augmentant de 41 $ au lieu de 68 $, les 27 $ restants étant ajoutés l'année suivante.

Le deuxième facteur concerne l'imagerie, comme les téléobjectifs, qui sont loin d'être parfaits. Nous devons continuer à investir chaque année. Bien que l'espace reste le même, les méthodes de mise en œuvre, telles que la disposition des objectifs et l'implantation des modules, changeront considérablement. Ces changements réduiront les taux de rendement et augmenteront les coûts des produits.

La tendance à la hausse des prix des téléphones phares est inévitable. Pour la plupart des utilisateurs ordinaires, l'expérience des téléphones phares est déjà assez bonne. Par exemple, la plate-forme N-1 (téléphones phares utilisant la puce phare de la génération précédente) a considérablement amélioré l'expérience utilisateur. Nous pouvons également inclure des images phares dans les produits de la plate-forme N-1 pour répondre au pouvoir d'achat des utilisateurs.

En bref, si les utilisateurs recherchent l'expérience ultime en matière d'imagerie, d'IA et de jeu, ils devront dépenser environ 68 $ de plus. S'ils ne recherchent pas l'expérience ultime, la plate-forme N-1 offre une belle apparence et une expérience décente. Pour les utilisateurs qui ne jouent pas aux jeux les plus intenses et ne jouent qu'à des jeux comme Genshin Impact, la plate-forme N-1 est suffisante. Pour la photographie, s'ils n'ont pas besoin d'un zoom 20x lors de concerts et se contentent d'un zoom 10x, la série X standard peut répondre à leurs besoins.

Par conséquent, les utilisateurs ayant un fort pouvoir d'achat et un désir d'expérience ultime progresseront, mais nous proposerons toujours des produits à des prix appropriés avec de bonnes expériences pour répondre aux besoins des utilisateurs.

Source à partir de si un

Avis de non-responsabilité : les informations présentées ci-dessus sont fournies par ifanr.com, indépendamment d'Chovm.com. Chovm.com ne fait aucune représentation ni garantie quant à la qualité et à la fiabilité du vendeur et des produits. Chovm.com décline expressément toute responsabilité en cas de violations des droits d'auteur du contenu.

Laisser un commentaire

Votre adresse courriel n'apparaitra pas. Les champs obligatoires sont marqués *

Remonter en haut