Na última semana de 2024, veículos de mídia como o iFanr visitaram a sede da Vivo em Dongguan para conversar com o vice-presidente executivo e diretor de operações da Vivo, Hu Baishan. Eles discutiram a dinâmica do mercado, o progresso e as aplicações da IA, e a direção e o planejamento futuros dos produtos da Vivo. Isso incluiu pensamentos sobre o mercado de telas dobráveis, planos e visões sobre óculos de ressonância magnética, robôs humanoides, óculos de IA e o ponto forte da Vivo: imagens.
Abaixo está um resumo da conversa em nível de produto (editado pelo iFanr para facilitar a leitura):
Telefoto e vídeo têm espaço para melhorias; a IA móvel tem um longo caminho a percorrer
P: Qual é sua opinião sobre o estado atual da IA? A IA substituirá a geração de imagens como o principal ponto de venda para smartphones no futuro? Os telefones principais atingiram seu pico em capacidades de geração de imagens?
Hu Baishan: Vamos falar primeiro sobre imagens. Nosso objetivo final é substituir a maioria dos cenários de câmeras DSLR, então ainda há espaço significativo para melhorias.
Como mencionei antes, a câmera principal do X200 Pro foi reduzida do sensor de 1 polegada do carro-chefe anterior para um sensor de 1/1.28 polegada, mas a experiência do usuário não diminuiu. Isso ocorre porque o poder de processamento do chip e os algoritmos de imagem fizeram avanços significativos. Isso indica que a experiência do usuário da câmera principal atingiu um nível decente. Se fôssemos pontuá-la, assumindo que uma DSLR convencional tem 100 pontos, nossa câmera principal está perto de 80 a 85 pontos.
No entanto, em termos de telefoto e vídeo, ainda há uma lacuna considerável em comparação com as DSLRs. Se continuarmos pontuando, a câmera principal está em 80 a 85, enquanto a telefoto está em torno de 60 pontos, mal passando.
Em cenários de concertos, com zoom de 10x, nosso X200 Pro tem um bom desempenho, e com 20x, você pode reconhecer quem é a pessoa ao fotografar de uma área externa à noite. No entanto, os usuários ainda hesitam em compartilhar essas fotos nas redes sociais porque a qualidade não é boa o suficiente, mas 10x é apresentável.
Na área de telefoto, nossa imagem de smartphone está bem distante das DSLRs. Nosso objetivo é melhorar a telefoto para um nível de 80 pontos dentro de 3 a 5 anos, e essa oportunidade ainda existe. Embora a utilização do espaço interno dos smartphones tenha atingido seu limite, onde mais podemos melhorar? A sensibilidade dos sensores de imagem ainda pode ser aprimorada por meio da tecnologia, e há espaço significativo para melhorias em grandes modelos e algoritmos de imagem. É por isso que estou confiante de que a Vivo pode atingir uma telefoto de 80 pontos no futuro.
A fotografia é relativamente estática, então os algoritmos têm mais espaço para brincar, mas o vídeo é dinâmico. Adicionar um monte de algoritmos ao vídeo colocaria uma pressão enorme no consumo de energia. Claro, há espaço para melhorias aqui também. Os chips agora estão em 3 nm, e a próxima geração será de 2 nm. Os chips SoC, e até mesmo os futuros chips dedicados de processamento de imagens, avançarão. Nosso próximo passo é aplicar grandes capacidades de algoritmo de modelo ao vídeo, mas a lógica geral do vídeo é dinâmica, então a capacidade de aprimoramento do algoritmo ainda será mais fraca.
Seja telefoto ou vídeo, ainda há uma distância considerável para atender às altas demandas dos usuários, e a tecnologia em si tem espaço significativo para desenvolvimento. Portanto, a imagem continua sendo um foco importante para futuros smartphones emblemáticos.
Quanto à IA, de fato, o desenvolvimento de grandes modelos tem sido rápido nos últimos dois anos. Voltando ao telefone em si, a IA ainda tem suas limitações. O maior problema com telefones é o poder de computação insuficiente. Eu divido a IA móvel em três estágios:
O primeiro estágio é aprimorar funções passadas com capacidades de IA. Por exemplo, nos últimos tempos, toda a indústria móvel tem sido bastante popular com a remoção de IA, um recurso que existia há mais de uma década, mas era mal executado devido a algoritmos primitivos.
No passado, os recursos de reconhecimento de voz usando aprendizado profundo tinham uma taxa de sucesso de apenas 90% na melhor das hipóteses. Com essa taxa de sucesso, você descobriria que as conversas não duravam muitas rodadas, pois cada etapa distorceria muito. Com o surgimento de grandes modelos generativos, os recursos de reconhecimento de voz e compreensão semântica melhoraram significativamente. Tínhamos um recurso chamado Phone Secretary, introduzido pela primeira vez no NEX 3, onde as pessoas podiam imediatamente dizer que era IA tradicional, e a chamada seria desligada após algumas frases. Agora, com o suporte de IA, as pessoas não conseguem dizer que é IA falando em um curto espaço de tempo.
Elas ainda se baseiam no aprimoramento de uma função ou módulo específico, longe da inteligência artificial geral (AGI).
O segundo estágio, acredito, é integrar grandes capacidades de modelo ao sistema. Por exemplo, no passado, encontrar uma configuração de função era quase impossível porque havia muitas opções de menu, todas misturadas. No futuro, com a IA profundamente integrada ao sistema, os telefones entenderão claramente suas intenções e saberão o que fazer em seguida, tornando as interações telefônicas mais inteligentes. Por exemplo, nossa tentativa inicial com “Atomic Island” é entender suas intenções e propor soluções. Este estágio durará bastante tempo porque a experiência do usuário neste estágio mal pode ser alcançada com o poder de computação atual.
O terceiro estágio é o que mencionamos na conferência VDC 2024, PhoneGPT. O recurso que demonstramos foi pedir comida para viagem, e isso pode ser feito com sucesso. No entanto, cada etapa teve apenas uma taxa de sucesso de 85% e, após três etapas, não foi possível prosseguir, e demorou muito tempo. Essa experiência é apenas um modelo, e a experiência do usuário não é nada boa.
Para realmente atingir os requisitos do PhoneGPT, a demanda por poder de computação não é apenas um pequeno aumento, mas um aumento significativo. A arquitetura integrada atual, arquitetura de empacotamento e largura de banda são insuficientes. Para realmente atingir o PhoneGPT, todo o requisito de capacidade deve estar próximo do armazenamento de alta velocidade atual, capacidades do lado do servidor, capacidades de largura de banda e arquitetura SoC para ter uma chance.
Isso é semelhante à geração de imagens. Podemos ver que a demanda do usuário já surgiu. Muitos modelos são executados em servidores em nuvem. Nosso centro de poder de computação interno tem quase 10,000 placas de computação, e muitos modelos podem ser executados na nuvem, como modelos com parâmetros 130B, mas essa escala não pode ser executada em telefones. Os telefones só podem executar modelos com parâmetros 2B ou 3B. Então, para realmente atingir o PhoneGPT em telefones, estimo que levará pelo menos cinco anos para atender aos requisitos de experiência do usuário.
A trilha da IA ainda está no segundo estágio. É uma melhoria gradual, não um salto de 0 para 1. Portanto, a IA não é uma força motriz significativa para o atual ciclo de substituição de telefones porque os usuários não experimentaram um salto de 0 para 1. Somente quando tal salto ocorrer, e os usuários descobrirem que o PhoneGPT pode fazer tantas coisas, eles terão um forte desejo de atualizar seus telefones.
Como sou responsável pelos produtos e pela tecnologia, o que eu revelar deve refletir o nível atual da nossa tecnologia ou da tecnologia de todo o setor.
P: No setor de smartphones, quais aspectos refletem a nova qualidade de produtividade e quais partes são as mais importantes?
Hu Baishan: A indústria de smartphones é um excelente exemplo de nova produtividade de qualidade. Pelo que entendi, a nova produtividade de qualidade tem três características: alta tecnologia, alta qualidade e alto dinamismo, além de quatro novos recursos. Por esses padrões, os smartphones se enquadram na categoria de nova produtividade de qualidade. Ao longo dos anos, vimos atualizações contínuas de novas tecnologias em smartphones.
Nós focamos muito em duas áreas: imagem e IA. No campo da imagem, nos últimos cinco anos, as pessoas notaram a rápida melhora na fotografia de smartphone sob várias condições. Este tem sido um avanço rápido.
Os smartphones substituíram muitas câmeras digitais que usávamos no passado, até mesmo substituindo câmeras sem espelho e, em alguns cenários, DSLRs. Mais consumidores estão dispostos a pagar por melhores efeitos fotográficos, gastando mais dinheiro em telefones para conseguir isso.
Em 2024, lançaremos o X100 Ultra e o X200 Pro, que chamamos de “dispositivos mágicos de concertos”. Os concertos têm sido frequentes nos últimos anos, e os consumidores querem capturar esses belos momentos. Por que os concertos precisam de smartphones? As DSLRs não podem ser levadas para locais de concertos, então os consumidores só podem usar telefones para capturar esses momentos.
O campo da IA é semelhante. A IA está apenas começando, mas ela fortaleceu muitas áreas dos smartphones. Acredito que a indústria de smartphones, como representante da nova produtividade de qualidade, é, sem dúvida, significativa. Também acredito que, por muito tempo, os smartphones continuarão sendo o principal produto eletrônico de consumo, contribuindo para a nova produtividade de qualidade.
Protótipo Vivo MR chega em 2026, robôs humanoides amadurecerão em dez anos
P: Como a Vivo está progredindo em MR (Realidade Mista) e robôs humanoides?
Hu Baishan: Nosso progresso em MR é relativamente rápido. A equipe de MR da Vivo cresceu para quase 500 pessoas. Nossa meta é ter um protótipo de experiência de MR de alta fidelidade disponível nas lojas da Vivo em cerca de uma dúzia de cidades em todo o país até setembro ou outubro de 2025. Da reserva à experiência no local, pretendemos criar um processo padronizado para que todos possam experimentá-lo.
Para comercialização, precisamos olhar para todo o ecossistema MR, que ainda requer conteúdo de entretenimento e jogos. Como a Vivo não produz conteúdo, dependemos do ecossistema para corresponder no tempo. Muitas indicações mostram que a indústria está se movendo em uma direção favorável. A Tencent está aumentando seu investimento em conteúdo. Anteriormente, eles queriam fazer hardware, mas recentemente decidiram se concentrar em software, o que é bom para nós.
Exijo que a equipe de MR encontre cenários que consideramos essenciais. Não importa se o público-alvo é de nicho, mas para eles, MR deve ser indispensável.
Por exemplo, jogos jogados em telefones ou consoles estão em um certo nível. Quando a MR entra, os usuários perceberão que eles eram abaixo da média, e a experiência será significativamente melhorada. Exceto por não carregar dispositivos de MR o tempo todo, na maioria das vezes, quando eles têm tempo para jogar, eles recorrerão à MR. Este é um cenário essencial.
Em relação aos robôs humanoides, em 2024, também mencionamos esse conceito. A demanda é clara: a sociedade está envelhecendo rapidamente.
De uma perspectiva de tendência, robôs são de fato uma direção. Analisamos alguns caminhos-chave para robôs, um dos quais é a percepção espacial. MR tem fortes capacidades de percepção espacial. Uma vez que MR esteja bem desenvolvida, a percepção espacial dos robôs não será um problema.
Robôs também exigem mãos e pés flexíveis e fortes habilidades de tomada de decisão. Para atingir o robô ideal, acreditamos que levará mais de dez anos.
A percepção espacial e a capacidade de tomada de decisão não serão perfeitas no curto prazo, mas as capacidades das mãos e dos pés melhorarão relativamente rápido, como robôs industriais realizando tarefas especializadas.
O robô ideal pode levar de dez a quinze anos para ser alcançado, mas podemos implementá-lo em etapas. Por exemplo, podemos começar com uma gama limitada, como robôs de linha de produção, que podem fazer “dois trabalhos”, mas esperamos fazer “dez trabalhos” no futuro. Estamos construindo essa capacidade, mas o lançamento do produto não será rápido.
Nossa lógica atual é que esses robôs, que chamamos internamente de cenário e demanda do usuário, têm necessidades claras, mas o caminho da solução técnica não é totalmente claro. Como nossa discussão anterior sobre imagens, os usuários querem fotografia de nível DSLR. Os robôs têm necessidades claras de cenário do usuário, mas a tecnologia não corresponde. Nos próximos três a cinco anos, entenderemos o estado de maturidade da tecnologia. Com base nisso, podemos definir um produto com a capacidade de resolver certos cenários locais naquele ponto médio.
Em resumo, precisamos entender o estado da tecnologia nos próximos três a cinco anos, incluindo capacidades de IA. Com base nessa capacidade tecnológica, podemos fazer alguns ajustes em cenários ideais para atender a necessidades específicas. Este é o nosso plano de ciclo de produto interno.
P: A cadeia da indústria de RA está amadurecendo mais rápido. O que você pensa sobre isso?
Hu Baishan: Para produtos de RA, nós os entendemos desta forma: da perspectiva da demanda do usuário, os óculos não podem ser muito pesados. Óculos de RA com telas são pesados, em torno de 40-50 gramas, o que não é uma boa experiência. Alguns óculos de RA têm capacidades de tela limitadas. Ainda não nos aventuramos nesta categoria, mas estamos considerando óculos sem tela. Não importa em qual categoria de produto estamos trabalhando, precisamos identificar as necessidades básicas dos usuários e encontrar um grupo de usuários específico para o qual o produto é essencial. Recentemente, conversei com colegas da equipe de produtos e perguntei se eles tinham identificado os usuários e cenários essenciais. Eles disseram que tinham encontrado alguns, e parecia razoável.
Muitos usuários têm as mãos ocupadas enquanto trabalham. Eles precisam de outra pessoa para ajudá-los? Se houver apenas uma pessoa e suas mãos estiverem ocupadas, um dispositivo auxiliar é necessário para resolver esse problema. Celulares ou outros dispositivos não podem resolver bem esse problema. Portanto, a lógica de posicionamento do nosso dispositivo de RM é que ele é essencial para esse grupo de pessoas, e nós identificamos essas pessoas. Se o produto progredir rapidamente, ele aparecerá até o final de 2025, ou até 2026, no máximo.
Mudanças na demanda por telas dobráveis e ritmo do produto serão ajustados
P: O mercado de telefones dobráveis, que cresceu por 4 anos, estagnou ou até mesmo declinou. Qual é o plano da vivo para telefones dobráveis?
Hu Baishan: Inicialmente, os fabricantes tinham grandes expectativas para telas dobráveis porque era uma mudança significativa na forma do produto. Da perspectiva das necessidades do usuário, quem está usando telas dobráveis?
Um grupo é formado por pessoas com mais de 45 anos, como eu, cuja visão está se deteriorando. Os telefones dobráveis resolveram muitos problemas relacionados à presbiopia, pois precisam de telas maiores para ler notícias ou assistir a vídeos, atendendo às necessidades de pessoas mais velhas.
O segundo grupo inclui profissionais de mídia como os presentes aqui. Eles usam telefones dobráveis para lidar com uma grande quantidade de informações, incluindo eu, para gerenciar e-mails e mensagens da empresa.
Ao manusear informações em um telefone de barra, geralmente é no modo retrato, e você tem que alternar para o modo paisagem, o que não é uma boa experiência, e o texto é relativamente pequeno.
Independentemente do grupo, ele aborda as necessidades de pessoas específicas. Ao fazer produtos, precisamos entender quem são os usuários essenciais. Quando as telas dobráveis surgiram, muitos usuários as experimentaram por curiosidade, mas descobriram que não eram adequadas para eles.
Tenho um amigo que disse que além de usar o telefone para WeChat, chamadas e mensagens de texto, ele usa principalmente o Douyin (TikTok), que fica no modo retrato, então a tela dobrável é inútil para ele, e ele não comprará outro telefone dobrável.
Após o desenvolvimento inicial, os usuários restantes são os essenciais, como mencionado anteriormente. A capacidade de mercado para o primeiro e o segundo grupos é relativamente pequena. Em muitos cenários, como jogos, telas dobráveis não são ideais. Elas têm pior dissipação de calor e experiência de controle em comparação com telefones de barra, então telas dobráveis se tornaram produtos para grupos específicos. O tamanho do mercado depende da escala desses grupos específicos e pode se estabilizar em torno de cinco milhões de unidades.
Para nós, devemos fazer telefones dobráveis? Sim. Da perspectiva das necessidades do usuário, existem esses grupos, mas precisamos controlá-los. Na geração anterior, fizemos dois modelos, um com foco em imagem e desempenho, e o outro em custo-efetividade. Planejamos milhões de unidades em vendas, mas acabamos com centenas de milhares, o que ainda é limitado. Seguindo em frente, faremos iterações anualmente, melhorando a experiência do usuário, pois sempre haverá alguns usuários que precisam de telas dobráveis. Por exemplo, alguns usuários usam um telefone para o WeChat diário e interações sociais e outro telefone para atualizações do mercado de ações e aprovações de documentos.
Além disso, para pequenos produtos dobráveis, o mercado global cresceu em 2023, mas em 2024, os pequenos produtos dobráveis das marcas líderes caíram de 30% a 40%. É improvável que a Vivo lance pequenos produtos dobráveis no futuro.
Os preços dos telefones principais continuarão a subir, a experiência dos sub-principais já é muito boa
P: Os preços dos telefones principais aumentarão ligeiramente em 2025. O aumento de preço continuará em 2026? Como a vivo equilibra custo e preço?
Hu Baishan: Acreditamos que o aumento de preço continuará devido a dois fatores. O primeiro é claro: a plataforma SoC principal e o processo de semicondutores continuarão a melhorar, então os aumentos de preço são inevitáveis. Estamos negociando com os fabricantes de SoC para moderar o aumento de preço, por exemplo, sacrificando algumas margens de lucro para manter ou desacelerar o aumento de preço, como aumentar em $ 41 em vez de $ 68, com os $ 27 restantes adicionados no ano seguinte.
O segundo fator inclui imagens, como lentes telefoto, que estão longe de serem perfeitas. Precisamos continuar investindo anualmente. Embora o espaço permaneça o mesmo, os métodos de implementação, como arranjo de lentes e implementação de módulos, mudarão significativamente. Essas mudanças reduzirão as taxas de rendimento e aumentarão os custos do produto.
A tendência ascendente nos preços dos telefones principais é inevitável. Para a maioria dos usuários comuns, a experiência sub-principal já é muito boa. Por exemplo, a plataforma N-1 (telefones sub-principais usando o chip principal da geração anterior) melhorou significativamente a experiência do usuário. Também podemos incluir imagens principais em produtos da plataforma N-1 para atender ao poder de compra dos usuários.
Resumindo, se os usuários buscam a melhor experiência em imagens, IA e jogos, eles precisarão gastar cerca de US$ 68 a mais. Se eles não buscam a melhor experiência, a plataforma N-1 oferece uma boa aparência e uma experiência decente. Para usuários que não jogam os jogos mais intensos e só jogam jogos como Genshin Impact, a plataforma N-1 é suficiente. Para fotografia, se eles não precisam de zoom 20x em shows e estão satisfeitos com zoom 10x, a série X padrão pode atender às suas necessidades.
Portanto, usuários com alto poder de compra e desejo pela melhor experiência subirão de nível, mas continuaremos a oferecer produtos com preços adequados e boas experiências para atender às necessidades dos usuários.
Retirado de se um
Isenção de responsabilidade: as informações estabelecidas acima são fornecidas por ifanr.com, independentemente do Chovm.com. Chovm.com não faz nenhuma representação e garantia quanto à qualidade e confiabilidade do vendedor e dos produtos. Chovm.com isenta-se expressamente de qualquer responsabilidade por violações relativas aos direitos autorais do conteúdo.