博鳌亚洲论坛2026年年会,vivo第五年以战略合作伙伴身份亮相。
2026年的春天,人工智能的浪潮依然在以一种令人目眩的速度狂飙。前有机器人在春晚舞台上翻转腾挪,后有OpenClaw引发全球“养虾狂欢”。在屏幕这一端输入一段文本,那一端就能生成一段逼真的视频,科幻与现实的边界似乎正在消融。
然而,狂欢之后,行业内也开始出现冷静的审视:如何让AI从“云端军师”落地为物理世界的“行动派”?
3月24日,在博鳌亚洲论坛2026年年会上,连续第五年作为战略合作伙伴亮相的vivo,给出了一份破局解法。vivo总裁、首席运营官,vivo中央研究院院长胡柏山在主题演讲中表示:“AI正处在从被动执行到主动感知、理解的关键转折点。AI要从虚拟世界走进现实,必须建立自己的感知体系,才能‘看见’物理世界,而vivo认为,影像是感知的基础。”
在vivo看来,目前主流的AI大模型更像是一个被关在黑屋子里的“云端军师”,算力再强,也无法直接感知真实的物理世界。如果没有对物理世界的感知能力,AI是无法真正泛化并走向千家万户的。因此,vivo正式将“影像”拔高到决定AI未来的战略高度,宣布成立全新的“感知赛道”。
当绝大多数科技企业都在死磕大模型的参数量、卷向云端算力时,vivo却选择了一条扎根底层技术的路线:用影像给AI装上“眼睛”,让手机从Smart Phone(智能手机)向Agent Phone(智能体手机)演进,并以此为原点,向MR头显、家庭机器人等IoT生态进发。
影像如何成为AI落地的“第一引擎”?
要理解vivo的战略,首先要理清当前AI发展的核心痛点。
经历了几年的爆发式增长,大模型在文本生成、逻辑推理等领域已经展现出“大师”级别的能力。但问题在于,这种智能是建立在纯粹的数字投喂之上的。真实世界是立体的、动态的、充满复杂情绪和突发事件的,一个无法“看”、无法“听”、无法感知环境温度与深度的AI,注定只能停留在屏幕里被动等待指令。
“在物理世界,没有影像,AI是失明的天才;没有AI,影像是沉默的记录。当两者相遇,天才有了眼睛,记录有了灵魂。”胡柏山在演讲中的这段话,精准地点出了影像与AI的共生关系。
为什么是影像?因为视觉是人类感知世界最主要的方式,也是机器理解物理世界最丰富的信息源。通过光学系统、成像处理、空间计算等全链路能力,影像技术能够完成对物理世界的数字化投射与三维场景重建。这不仅仅是拍出一张好看的照片,而是让AI获取看懂物理世界、理解真实场景、感知情绪并预测行动的基础数据。
在演讲中,胡柏山分享了两个令人动容的真实案例。九年前意外失明的“宝哥”,凭借一台vivo手机和“vivo看见”功能,环游了中国二十个城市。手机里的AI能告诉他:“面前是你的朋友,他双臂交叉,面带微笑。”而另一位因视觉神经损伤失明的女孩诺子,在冰岛的冰河湖旁举起手机,AI为她讲述了湖面漂浮的冰块和远处飞过的海鸟。
这两个故事,构成了vivo加注“感知赛道”底层的逻辑:科技的高度,终须回归人的尺度。
当大模型的算法和算力逐渐成为行业的基础设施,真正能拉开产品体验差距、建立起极高技术壁垒的,将是终端设备对真实世界的“感知力”。谁能率先打通影像与AI的任督二脉,让AI从“看见”进化为“理解”,谁就拿到了AI普惠物理世界的第一张门票。
从Smart到Agent:
装上“眼睛”的手机,到底能做什么?
那么,当AI拥有了视觉感知能力,落在最贴近大众的消费电子终端——手机,会带来怎样的体验颠覆?
基于“影像+AI”的双核驱动,vivo正在酝酿一场手机的代际跃迁:从Smart Phone(智能手机)进化为Agent Phone(智能体手机)。
如果说Smart Phone时代的逻辑是“人找服务”(打开App、输入指令、等待结果),那么Agent Phone时代的逻辑则是“服务找人”。未来的手机将不再是被动等待指令的硬件工具,而是一个兼具感知力、思考力、行动力的“数字伙伴”。
据悉,在刚刚发布的vivo X300 Ultra和vivo X300s上,率先搭载了具备场景识别能力的“影像Agent”。它能主动观察环境的亮度、空间的纵深、人际的距离,为用户推荐最佳的构图与个性化功能,让人人都能一键出大片。在这里,记录是被动的,而感知是主动的。
更有意思的是,vivo并没有采取单一的AI策略,而是聚焦用户的高频场景,为不同产品系列定制差异化的Agent体验。
例如,针对商务人士青睐的折叠旗舰X Fold系列,vivo重点布局了办公和出行Agent。开会时,它能默默记录并提炼核心信息;出差时,它能主动规划航班、天气和酒店。而对于主打性能的iQOO系列,则聚焦游戏Agent,自动优化性能、录制高光时刻。
这种贴近个体生活场景的落地策略,展现了vivo作为一家终端厂商的务实:不一味追求脱离场景的“秀肌肉”,而是以用户需求为导向,用AI重塑并放大智能手机的差异化体验。当影像留住记忆,AI懂你习惯,两者的融合就能在端侧为每个人生成一份独一无二且绝对安全的“数字DNA”。
寻找下一条增长曲线:
“慢跑者”的IoT生态与出海逻辑
透视vivo在博鳌释放的信号,手机显然不是这场AI战略的终点。以影像为基础构建的感知系统,正在成为vivo向“生态型科技平台企业”演进的跳板。
2025年,vivo成立了机器人Lab。在外界看来,一家手机厂商去做机器人和混合现实(MR)头显设备,似乎是“大跨界”。但在vivo的战略图景里,这却是“感知赛道”水到渠成的自然延伸。
无论是MR头显还是家庭机器人,其最核心的技术瓶颈都在于“视觉感知”与“空间计算”。vivo的做法是,将多年积累的影像感知能力像“搭积木”一样,逐级赋能。手机是感知源头;MR头显是空间计算的训练场,用来理解空间结构和几何关系;而家庭机器人则是智能的终极形态,汇聚感知并最终作用于物理世界,实现真正的“感控一体”。
在这个过程中,vivo展现出了中国科技企业在快时代里“慢跑”的战略定力。不盲目追求让人眼前一亮的猎奇概念,而是稳扎稳打,明确家庭场景,锁定方向并深耕底层能力。这种以“视觉感知中枢”赋能IoT生态的做法,不仅为vivo打开了广阔的新品类研发空间,更为其深度推进AI产业赋能(如无障碍应用、疾病筛查、眼科医疗等)埋下了伏笔。
与此同时,站在全球化的视角,vivo也借由博鳌这个国际化窗口,传递了其角逐全球竞争的逻辑。
面对海外市场的广阔增长空间,vivo并没有选择简单的产能输出,而是坚持“More Local,More Global”的战略。不同国家的购买力、消费习惯和产品结构需求千差万别,vivo深知,只有深入本地化,才能实现真正的全球化。随着vivo X300 Ultra在MWC及博鳌上的惊艳亮相,vivo正在用世界级的产品与底层技术生态,向全球市场展示中国智造的创新高度。
在概念满天飞的当下,科技企业比拼的不再是谁能讲出更宏大的故事,而是谁能真正跨越数字与物理的鸿沟,将技术红利转化为普惠大众的生活体验。
左手以影像构建底层感知底座,右手以Agent重构人机交互生态,vivo在博鳌抛出的这份战略蓝图,不仅是在回答“下一代手机是什么”,更是在探索“下一代计算平台在哪里”。在这场通往物理世界AI的竞速赛中,脚踏实地的“慢跑者”,或许能最先触及终点。
文:严兆鑫
制版:叶敏坚 刘艳兰 黄炽林
热门跟贴