Nell'ultima settimana del 2024, i media come iFanr hanno visitato la sede centrale di Vivo a Dongguan per intavolare una conversazione con il Vicepresidente esecutivo e Chief Operating Officer di Vivo, Hu Baishan. Hanno discusso delle dinamiche di mercato, dei progressi e delle applicazioni dell'intelligenza artificiale e della futura direzione e pianificazione dei prodotti Vivo. Ciò includeva riflessioni sul mercato degli schermi pieghevoli, piani e opinioni sugli occhiali MR, sui robot umanoidi, sugli occhiali AI e sul punto forte di Vivo: l'imaging.
Di seguito è riportato un riepilogo della conversazione a livello di prodotto (modificato da iFanr per migliorarne la leggibilità):
Teleobiettivo e video hanno margini di miglioramento; l'intelligenza artificiale mobile ha ancora molta strada da fare
D: Qual è la tua opinione sullo stato attuale dell'intelligenza artificiale? L'intelligenza artificiale sostituirà l'imaging come principale argomento di vendita per gli smartphone in futuro? I telefoni di punta hanno raggiunto il loro apice nelle capacità di imaging?
Il signor Hu Baishan: Parliamo prima di imaging. Il nostro obiettivo finale è sostituire la maggior parte degli scenari di fotocamere DSLR, quindi c'è ancora un notevole margine di miglioramento.
Come ho detto prima, la fotocamera principale della X200 Pro è stata ridotta dal sensore da 1 pollice della precedente ammiraglia a un sensore da 1/1.28 pollici, ma l'esperienza utente non è diminuita. Questo perché la potenza di elaborazione del chip e gli algoritmi di imaging hanno fatto passi da gigante. Ciò indica che l'esperienza utente della fotocamera principale ha raggiunto un livello decente. Se dovessimo dargli un punteggio, supponendo che una DSLR convenzionale sia di 100 punti, la nostra fotocamera principale è vicina a 80-85 punti.
Tuttavia, in termini di teleobiettivo e video, c'è ancora un divario considerevole rispetto alle DSLR. Se continuiamo a segnare, la fotocamera principale è da 80 a 85, mentre il teleobiettivo è intorno ai 60 punti, appena sufficiente.
In scenari di concerti, con uno zoom 10x, la nostra X200 Pro funziona bene, e a 20x, puoi riconoscere chi è la persona quando scatti dall'area esterna di notte. Tuttavia, gli utenti sono ancora titubanti nel condividere queste foto sui social media perché la qualità non è abbastanza buona, ma 10x è presentabile.
Nell'area del teleobiettivo, l'imaging del nostro smartphone è piuttosto distante da quello delle DSLR. Puntiamo a migliorare il teleobiettivo a un livello di 80 punti entro 3-5 anni, e questa opportunità esiste ancora. Sebbene l'utilizzo dello spazio interno degli smartphone abbia raggiunto il suo limite, dove altro possiamo migliorare? La sensibilità dei sensori di imaging può ancora essere migliorata tramite la tecnologia, e c'è un notevole margine di miglioramento nei modelli di grandi dimensioni e negli algoritmi di imaging. Ecco perché sono fiducioso che Vivo possa raggiungere un teleobiettivo da 80 punti in futuro.
La fotografia è relativamente statica, quindi gli algoritmi hanno più spazio per giocare, ma il video è dinamico. Aggiungere un mucchio di algoritmi al video metterebbe un'enorme pressione sul consumo di energia. Naturalmente, anche qui c'è spazio per miglioramenti. I chip sono ora a 3 nm e la prossima generazione sarà a 2 nm. I chip SoC e persino i futuri chip dedicati all'elaborazione delle immagini, progrediranno. Il nostro prossimo passo è applicare le capacità degli algoritmi di grandi modelli al video, ma la logica generale del video è dinamica, quindi la capacità di miglioramento dell'algoritmo sarà ancora più debole.
Che si tratti di teleobiettivo o video, c'è ancora molta strada da fare per soddisfare le elevate richieste degli utenti, e la tecnologia stessa ha un notevole margine di sviluppo. Pertanto, l'imaging rimane un obiettivo chiave per i futuri smartphone di punta.
Per quanto riguarda l'IA, in effetti, lo sviluppo di modelli di grandi dimensioni è stato rapido negli ultimi due anni. Tornando al telefono stesso, l'IA ha ancora i suoi limiti. Il problema più grande con i telefoni è la potenza di calcolo insufficiente. Divido l'IA mobile in tre fasi:
La prima fase consiste nel potenziare le funzioni passate con capacità di intelligenza artificiale. Ad esempio, di recente, l'intero settore della telefonia mobile è stato piuttosto popolare con la rimozione dell'intelligenza artificiale, una funzionalità che esisteva oltre un decennio fa ma che è stata mal eseguita a causa di algoritmi primitivi.
In passato, le capacità di riconoscimento vocale tramite deep learning avevano un tasso di successo di appena il 90% al massimo. Con un tale tasso di successo, ci si accorgerebbe che le conversazioni non potrebbero durare per molti round, poiché ogni passaggio distorcerebbe troppo. Con l'emergere di modelli generativi di grandi dimensioni, le capacità di riconoscimento vocale e comprensione semantica sono notevolmente migliorate. Avevamo una funzionalità chiamata Phone Secretary, introdotta per la prima volta sul NEX 3, in cui le persone potevano immediatamente capire che si trattava di un'IA tradizionale e la chiamata veniva interrotta dopo poche frasi. Ora, con il supporto dell'IA, le persone non riescono a capire che è l'IA a parlare in poco tempo.
Si basano ancora sul potenziamento di una funzione o di un modulo specifico, ben lontani dall'intelligenza artificiale generale (AGI).
La seconda fase, credo, è l'integrazione di grandi capacità di modelli nel sistema. Ad esempio, in passato, trovare un'impostazione di funzione era quasi impossibile perché c'erano troppe opzioni di menu, tutte confuse. In futuro, con l'intelligenza artificiale profondamente integrata nel sistema, i telefoni capiranno chiaramente le tue intenzioni e sapranno cosa fare dopo, rendendo le interazioni telefoniche più intelligenti. Ad esempio, il nostro tentativo iniziale con "Atomic Island" è di capire le tue intenzioni e proporre soluzioni. Questa fase durerà un bel po' perché l'esperienza utente in questa fase può essere a malapena soddisfatta con l'attuale potenza di calcolo.
La terza fase è quella che abbiamo menzionato alla conferenza VDC 2024, PhoneGPT. La funzionalità che abbiamo dimostrato era ordinare cibo da asporto, e poteva essere fatto con successo. Tuttavia, ogni passaggio aveva solo un tasso di successo dell'85%, e dopo tre passaggi, non poteva procedere, e ci voleva molto tempo. Questa esperienza è solo un modello, e l'esperienza utente non è affatto buona.
Per raggiungere veramente i requisiti di PhoneGPT, la richiesta di potenza di elaborazione non è solo un leggero aumento, ma significativo. L'attuale architettura integrata, l'architettura di packaging e la larghezza di banda sono insufficienti. Per raggiungere veramente PhoneGPT, l'intero requisito di capacità deve essere vicino all'attuale storage ad alta velocità, alle capacità lato server, alle capacità di larghezza di banda e all'architettura SoC per avere una possibilità.
Questo è simile all'imaging. Possiamo vedere che la domanda degli utenti è già emersa. Molti modelli funzionano su server cloud. Il nostro centro di elaborazione interna ha quasi 10,000 schede di elaborazione e molti modelli possono funzionare sul cloud, come i modelli con parametri 130B, ma questa scala non può funzionare sui telefoni. I telefoni possono eseguire solo modelli con parametri 2B o 3B. Quindi, per ottenere veramente PhoneGPT sui telefoni, stimo che ci vorranno almeno cinque anni per soddisfare i requisiti dell'esperienza utente.
Il percorso AI è attualmente ancora nella seconda fase. Si tratta di un miglioramento graduale, non di un salto da 0 a 1. Pertanto, l'AI non è una forza trainante significativa per l'attuale ciclo di sostituzione dei telefoni perché gli utenti non hanno sperimentato un salto da 0 a 1. Solo quando si verificherà un salto del genere e gli utenti scopriranno che PhoneGPT può fare così tante cose, avranno un forte desiderio di aggiornare i loro telefoni.
Poiché sono responsabile sia dei prodotti che della tecnologia, ciò che rivelo dovrebbe riflettere il livello attuale della nostra tecnologia o della tecnologia dell'intero settore.
D: Nel settore degli smartphone, quali aspetti riflettono la nuova qualità della produttività e quali sono i componenti più importanti?
Il signor Hu Baishan: L'industria degli smartphone è un esempio lampante di nuova produttività di qualità. Per come la vedo io, la nuova produttività di qualità ha tre caratteristiche: alta tecnologia, alta qualità e alto dinamismo, insieme a quattro nuove funzionalità. In base a questi standard, gli smartphone rientrano nella categoria della nuova produttività di qualità. Nel corso degli anni, abbiamo assistito a continui aggiornamenti di nuova tecnologia negli smartphone.
Ci concentriamo molto su due aree: imaging e AI. Nel campo dell'imaging, negli ultimi cinque anni, le persone hanno notato il rapido miglioramento della fotografia con smartphone in varie condizioni. Si è trattato di un progresso rapido.
Gli smartphone hanno sostituito molte fotocamere digitali che usavamo in passato, sostituendo persino le fotocamere mirrorless e, in alcuni scenari, le DSLR. Un numero maggiore di consumatori è disposto a pagare per ottenere effetti fotografici migliori, spendendo più soldi in telefoni per ottenerli.
Nel 2024, lanceremo X100 Ultra e X200 Pro, che chiamiamo i "dispositivi magici per concerti". I concerti sono stati frequenti negli ultimi anni e i consumatori vogliono catturare questi bellissimi momenti. Perché i concerti hanno bisogno degli smartphone? Le DSLR non possono essere portate nei luoghi dei concerti, quindi i consumatori possono usare solo i telefoni per catturare questi momenti.
Il campo dell'intelligenza artificiale è simile. L'intelligenza artificiale è appena agli inizi, ma ha potenziato molte aree degli smartphone. Credo che l'industria degli smartphone, come rappresentante della nuova produttività di qualità, sia senza dubbio significativa. Credo anche che per molto tempo gli smartphone rimarranno il prodotto elettronico di consumo principale, contribuendo alla nuova produttività di qualità.
Prototipo Vivo MR in arrivo nel 2026, i robot umanoidi matureranno in dieci anni
D: Come sta progredendo Vivo nel campo della MR (realtà mista) e dei robot umanoidi?
Il signor Hu Baishan: I nostri progressi MR sono relativamente rapidi. Il team Vivo MR è cresciuto fino a quasi 500 persone. Il nostro obiettivo è di avere un prototipo di esperienza MR ad alta fedeltà disponibile nei negozi Vivo in circa una dozzina di città in tutto il paese entro settembre o ottobre 2025. Dalla prenotazione all'esperienza in loco, puntiamo a creare un processo standardizzato affinché tutti possano provarlo.
Per la commercializzazione, dobbiamo guardare all'intero ecosistema MR, che richiede ancora contenuti di intrattenimento e gaming. Dal momento che Vivo non produce contenuti, facciamo affidamento sull'ecosistema per adeguarsi in tempo. Molte indicazioni mostrano che il settore si sta muovendo in una direzione favorevole. Tencent sta aumentando i suoi investimenti nei contenuti. In precedenza, volevano realizzare hardware, ma di recente hanno deciso di concentrarsi sul software, il che è positivo per noi.
Chiedo al team MR di trovare scenari che consideriamo essenziali. Non importa se il pubblico di riferimento è di nicchia, ma per loro, MR deve essere indispensabile.
Ad esempio, i giochi giocati su telefoni o console sono a un certo livello. Quando arriverà MR, gli utenti si renderanno conto che erano mediocri e l'esperienza sarà notevolmente migliorata. A parte il fatto di non portare sempre con sé dispositivi MR, la maggior parte delle volte, quando hanno tempo per giocare, si rivolgeranno a MR. Questo è uno scenario essenziale.
Per quanto riguarda i robot umanoidi, nel 2024, abbiamo menzionato anche questo concetto. La domanda è chiara: la società sta invecchiando rapidamente.
Da una prospettiva di tendenza, i robot sono davvero una direzione. Abbiamo analizzato alcuni percorsi chiave per i robot, uno dei quali è la percezione spaziale. MR ha forti capacità di percezione spaziale. Una volta che MR sarà ben sviluppato, la percezione spaziale dei robot non sarà un problema.
I robot richiedono anche mani e piedi flessibili e forti capacità decisionali. Per ottenere il robot ideale, crediamo che ci vorranno più di dieci anni.
La percezione spaziale e le capacità decisionali non saranno perfette nel breve termine, ma le capacità delle mani e dei piedi miglioreranno relativamente in fretta, come i robot industriali che svolgono compiti specializzati.
Il robot ideale potrebbe richiedere dai dieci ai quindici anni per essere realizzato, ma possiamo implementarlo in più fasi. Ad esempio, possiamo iniziare con una gamma limitata, come i robot delle linee di produzione, che potrebbero svolgere "due lavori", ma speriamo di svolgere "dieci lavori" in futuro. Stiamo sviluppando questa capacità, ma il rilascio del prodotto non sarà rapido.
La nostra logica attuale è che questi robot, che internamente chiamiamo scenario e user demand-driven, hanno esigenze chiare, ma il percorso della soluzione tecnica non è del tutto chiaro. Come nella nostra precedente discussione sull'imaging, gli utenti vogliono una fotografia di livello DSLR. I robot hanno chiare esigenze di scenario utente, ma la tecnologia non è all'altezza. Nei prossimi tre-cinque anni, capiremo lo stato di maturità della tecnologia. Sulla base di ciò, possiamo impostare un prodotto con la capacità di risolvere determinati scenari locali a quel punto intermedio.
In breve, dobbiamo comprendere lo stato della tecnologia nei prossimi tre-cinque anni, comprese le capacità di intelligenza artificiale. Sulla base di questa capacità tecnologica, possiamo apportare alcune modifiche in scenari ideali per soddisfare esigenze specifiche. Questo è il nostro piano interno del ciclo di prodotto.
D: La filiera AR sta maturando più velocemente. Cosa ne pensi?
Il signor Hu Baishan: Per i prodotti AR, li intendiamo in questo modo: dal punto di vista della domanda dell'utente, gli occhiali non possono essere troppo pesanti. Gli occhiali AR con display sono pesanti, circa 40-50 grammi, il che non è una bella esperienza. Alcuni occhiali AR hanno capacità di visualizzazione limitate. Non ci siamo ancora avventurati in questa categoria, ma stiamo prendendo in considerazione occhiali senza display. Indipendentemente dalla categoria di prodotto su cui stiamo lavorando, dobbiamo identificare le esigenze di base degli utenti e trovare un gruppo di utenti specifico per il quale il prodotto è essenziale. Di recente, ho discusso con i colleghi del team di prodotto e ho chiesto loro se avevano identificato gli utenti e gli scenari essenziali. Hanno detto che ne avevano trovati alcuni e sembrava ragionevole.
Molti utenti hanno le mani occupate mentre lavorano. Hanno bisogno di qualcun altro che li assista? Se c'è una sola persona e le sue mani sono occupate, è necessario un dispositivo ausiliario per risolvere questo problema. I telefoni cellulari o altri dispositivi non possono risolvere bene questo problema. Pertanto, la logica di posizionamento del nostro dispositivo MR è che è essenziale per quel gruppo di persone e abbiamo identificato queste persone. Se il prodotto progredisce rapidamente, apparirà entro la fine del 2025 o entro il 2026 al più tardi.
Cambiamenti nella domanda di schermi pieghevoli, il ritmo del prodotto si adatterà
D: Il mercato dei telefoni pieghevoli, in crescita da 4 anni, è stagnante o addirittura in declino. Qual è il piano di vivo per i telefoni pieghevoli?
Il signor Hu Baishan: Inizialmente, i produttori avevano grandi aspettative per gli schermi pieghevoli perché rappresentavano un cambiamento significativo nella forma del prodotto. Dal punto di vista delle esigenze degli utenti, chi utilizza gli schermi pieghevoli?
Un gruppo è costituito da persone con più di 45 anni, come me, la cui vista sta peggiorando. I telefoni pieghevoli hanno risolto molti problemi legati alla presbiopia, poiché necessitano di schermi più grandi per leggere le notizie o guardare video, rispondendo alle esigenze delle persone anziane.
Il secondo gruppo comprende professionisti dei media come quelli presenti qui. Usano telefoni pieghevoli per gestire una grande quantità di informazioni, me compreso, per gestire e-mail e messaggi aziendali.
Quando si gestiscono informazioni su un telefono da bar, di solito è in modalità verticale e bisogna passare alla modalità orizzontale, il che non è una bella esperienza e il testo è relativamente piccolo.
Indipendentemente dal gruppo, affronta le esigenze di persone specifiche. Quando realizziamo prodotti, dobbiamo capire chi sono gli utenti essenziali. Quando sono usciti per la prima volta gli schermi pieghevoli, molti utenti li hanno provati per curiosità, ma hanno scoperto che non erano adatti a loro.
Ho un amico che ha detto che oltre a usare il telefono per WeChat, chiamate e messaggi, usa principalmente Douyin (TikTok), che è in modalità verticale, quindi lo schermo pieghevole è inutile per lui e non comprerà un altro telefono pieghevole.
Dopo lo sviluppo iniziale, gli utenti rimanenti sono quelli essenziali, come detto in precedenza. La capacità di mercato per il primo e il secondo gruppo è relativamente piccola. In molti scenari, come il gaming, gli schermi pieghevoli non sono l'ideale. Hanno una dissipazione del calore e un'esperienza di controllo peggiori rispetto ai bar phone, quindi gli schermi pieghevoli sono diventati prodotti per gruppi specifici. La dimensione del mercato dipende dalla scala di questi gruppi specifici e potrebbe stabilizzarsi intorno ai cinque milioni di unità.
Per noi, dovremmo realizzare telefoni pieghevoli? Sì. Dal punto di vista delle esigenze degli utenti, ci sono quei gruppi, ma dobbiamo controllarli. Nella generazione precedente, abbiamo realizzato due modelli, uno incentrato su imaging e prestazioni e l'altro sulla convenienza. Avevamo pianificato milioni di unità in vendita, ma siamo finiti con centinaia di migliaia, il che è ancora limitato. Andando avanti, faremo iterazioni annuali, migliorando l'esperienza utente, poiché ci saranno sempre degli utenti che avranno bisogno di schermi pieghevoli. Ad esempio, alcuni utenti usano un telefono per le interazioni quotidiane con WeChat e sui social e un altro telefono per gli aggiornamenti del mercato azionario e le approvazioni dei documenti.
Inoltre, per i piccoli prodotti pieghevoli, il mercato globale è cresciuto nel 2023, ma nel 2024 i piccoli prodotti pieghevoli dei marchi leader sono diminuiti del 30%-40%. È improbabile che Vivo rilasci piccoli prodotti pieghevoli in futuro.
I prezzi dei telefoni di punta continueranno a salire, l'esperienza dei telefoni di punta è già piuttosto buona
D: I prezzi dei telefoni di punta aumenteranno leggermente nel 2025. L'aumento dei prezzi continuerà nel 2026? Quanto costa e quanto costa vivo balance?
Il signor Hu Baishan: Riteniamo che l'aumento dei prezzi continuerà a causa di due fattori. Il primo è chiaro: la piattaforma SoC di punta e il processo dei semiconduttori continueranno a migliorare, quindi gli aumenti dei prezzi sono inevitabili. Stiamo negoziando con i produttori di SoC per moderare l'aumento dei prezzi, ad esempio, sacrificando alcuni margini di profitto per mantenere o rallentare l'aumento dei prezzi, come aumentare di $ 41 invece di $ 68, con i restanti $ 27 aggiunti l'anno successivo.
Il secondo fattore include l'imaging, come i teleobiettivi, che sono ben lungi dall'essere perfetti. Dobbiamo continuare a investire annualmente. Sebbene lo spazio rimanga lo stesso, i metodi di implementazione, come la disposizione delle lenti e l'implementazione dei moduli, cambieranno in modo significativo. Questi cambiamenti ridurranno i tassi di rendimento e aumenteranno i costi dei prodotti.
La tendenza al rialzo dei prezzi dei telefoni di punta è inevitabile. Per la maggior parte degli utenti comuni, l'esperienza sub-flagship è già piuttosto buona. Ad esempio, la piattaforma N-1 (telefoni sub-flagship che utilizzano il chip flagship della generazione precedente) ha migliorato significativamente l'esperienza utente. Potremmo anche includere l'imaging flagship nei prodotti della piattaforma N-1 per soddisfare il potere d'acquisto degli utenti.
In breve, se gli utenti perseguono l'esperienza definitiva in termini di imaging, IA e gaming, dovranno spendere circa $ 68 in più. Se non perseguono l'esperienza definitiva, la piattaforma N-1 offre un bell'aspetto e un'esperienza decente. Per gli utenti che non giocano ai giochi più intensi e giocano solo a giochi come Genshin Impact, la piattaforma N-1 è sufficiente. Per la fotografia, se non hanno bisogno di uno zoom 20x ai concerti e sono soddisfatti dello zoom 10x, la serie X standard può soddisfare le loro esigenze.
Pertanto, gli utenti con un forte potere d'acquisto e desiderosi di vivere un'esperienza unica saliranno di livello, ma continueremo a offrire prodotti a prezzi adeguati con esperienze positive per soddisfare le esigenze degli utenti.
Fonte da se uno
Dichiarazione di non responsabilità: le informazioni sopra riportate sono fornite da ifanr.com, indipendentemente da Chovm.com. Chovm.com non rilascia alcuna dichiarazione o garanzia in merito alla qualità e all'affidabilità del venditore e dei prodotti. Chovm.com declina espressamente qualsiasi responsabilità per violazioni relative al diritto d'autore dei contenuti.