直击博鳌 AI大模型如何“卷”向物理世界？|vivo|大模型|机器人|视觉

博鳌亚洲论坛2026年年会，vivo第五年以战略合作伙伴身份亮相。

2026年的春天，人工智能的浪潮依然在以一种令人目眩的速度狂飙。前有机器人在春晚舞台上翻转腾挪，后有OpenClaw引发全球“养虾狂欢”。在屏幕这一端输入一段文本，那一端就能生成一段逼真的视频，科幻与现实的边界似乎正在消融。

然而，狂欢之后，行业内也开始出现冷静的审视：如何让AI从“云端军师”落地为物理世界的“行动派”？

3月24日，在博鳌亚洲论坛2026年年会上，连续第五年作为战略合作伙伴亮相的vivo，给出了一份破局解法。vivo总裁、首席运营官，vivo中央研究院院长胡柏山在主题演讲中表示：“AI正处在从被动执行到主动感知、理解的关键转折点。AI要从虚拟世界走进现实，必须建立自己的感知体系，才能‘看见’物理世界，而vivo认为，影像是感知的基础。”

在vivo看来，目前主流的AI大模型更像是一个被关在黑屋子里的“云端军师”，算力再强，也无法直接感知真实的物理世界。如果没有对物理世界的感知能力，AI是无法真正泛化并走向千家万户的。因此，vivo正式将“影像”拔高到决定AI未来的战略高度，宣布成立全新的“感知赛道”。

当绝大多数科技企业都在死磕大模型的参数量、卷向云端算力时，vivo却选择了一条扎根底层技术的路线：用影像给AI装上“眼睛”，让手机从Smart Phone(智能手机)向Agent Phone(智能体手机)演进，并以此为原点，向MR头显、家庭机器人等IoT生态进发。

影像如何成为AI落地的“第一引擎”？

要理解vivo的战略，首先要理清当前AI发展的核心痛点。

经历了几年的爆发式增长，大模型在文本生成、逻辑推理等领域已经展现出“大师”级别的能力。但问题在于，这种智能是建立在纯粹的数字投喂之上的。真实世界是立体的、动态的、充满复杂情绪和突发事件的，一个无法“看”、无法“听”、无法感知环境温度与深度的AI，注定只能停留在屏幕里被动等待指令。

“在物理世界，没有影像，AI是失明的天才；没有AI，影像是沉默的记录。当两者相遇，天才有了眼睛，记录有了灵魂。”胡柏山在演讲中的这段话，精准地点出了影像与AI的共生关系。

为什么是影像？因为视觉是人类感知世界最主要的方式，也是机器理解物理世界最丰富的信息源。通过光学系统、成像处理、空间计算等全链路能力，影像技术能够完成对物理世界的数字化投射与三维场景重建。这不仅仅是拍出一张好看的照片，而是让AI获取看懂物理世界、理解真实场景、感知情绪并预测行动的基础数据。

在演讲中，胡柏山分享了两个令人动容的真实案例。九年前意外失明的“宝哥”，凭借一台vivo手机和“vivo看见”功能，环游了中国二十个城市。手机里的AI能告诉他：“面前是你的朋友，他双臂交叉，面带微笑。”而另一位因视觉神经损伤失明的女孩诺子，在冰岛的冰河湖旁举起手机，AI为她讲述了湖面漂浮的冰块和远处飞过的海鸟。

这两个故事，构成了vivo加注“感知赛道”底层的逻辑：科技的高度，终须回归人的尺度。

当大模型的算法和算力逐渐成为行业的基础设施，真正能拉开产品体验差距、建立起极高技术壁垒的，将是终端设备对真实世界的“感知力”。谁能率先打通影像与AI的任督二脉，让AI从“看见”进化为“理解”，谁就拿到了AI普惠物理世界的第一张门票。

从Smart到Agent：

装上“眼睛”的手机，到底能做什么？

那么，当AI拥有了视觉感知能力，落在最贴近大众的消费电子终端——手机，会带来怎样的体验颠覆？

基于“影像+AI”的双核驱动，vivo正在酝酿一场手机的代际跃迁：从Smart Phone(智能手机)进化为Agent Phone(智能体手机)。

如果说Smart Phone时代的逻辑是“人找服务”(打开App、输入指令、等待结果)，那么Agent Phone时代的逻辑则是“服务找人”。未来的手机将不再是被动等待指令的硬件工具，而是一个兼具感知力、思考力、行动力的“数字伙伴”。

据悉，在刚刚发布的vivo X300 Ultra和vivo X300s上，率先搭载了具备场景识别能力的“影像Agent”。它能主动观察环境的亮度、空间的纵深、人际的距离，为用户推荐最佳的构图与个性化功能，让人人都能一键出大片。在这里，记录是被动的，而感知是主动的。

更有意思的是，vivo并没有采取单一的AI策略，而是聚焦用户的高频场景，为不同产品系列定制差异化的Agent体验。

例如，针对商务人士青睐的折叠旗舰X Fold系列，vivo重点布局了办公和出行Agent。开会时，它能默默记录并提炼核心信息；出差时，它能主动规划航班、天气和酒店。而对于主打性能的iQOO系列，则聚焦游戏Agent，自动优化性能、录制高光时刻。

这种贴近个体生活场景的落地策略，展现了vivo作为一家终端厂商的务实：不一味追求脱离场景的“秀肌肉”，而是以用户需求为导向，用AI重塑并放大智能手机的差异化体验。当影像留住记忆，AI懂你习惯，两者的融合就能在端侧为每个人生成一份独一无二且绝对安全的“数字DNA”。

寻找下一条增长曲线：

“慢跑者”的IoT生态与出海逻辑

透视vivo在博鳌释放的信号，手机显然不是这场AI战略的终点。以影像为基础构建的感知系统，正在成为vivo向“生态型科技平台企业”演进的跳板。

2025年，vivo成立了机器人Lab。在外界看来，一家手机厂商去做机器人和混合现实(MR)头显设备，似乎是“大跨界”。但在vivo的战略图景里，这却是“感知赛道”水到渠成的自然延伸。

无论是MR头显还是家庭机器人，其最核心的技术瓶颈都在于“视觉感知”与“空间计算”。vivo的做法是，将多年积累的影像感知能力像“搭积木”一样，逐级赋能。手机是感知源头；MR头显是空间计算的训练场，用来理解空间结构和几何关系；而家庭机器人则是智能的终极形态，汇聚感知并最终作用于物理世界，实现真正的“感控一体”。

在这个过程中，vivo展现出了中国科技企业在快时代里“慢跑”的战略定力。不盲目追求让人眼前一亮的猎奇概念，而是稳扎稳打，明确家庭场景，锁定方向并深耕底层能力。这种以“视觉感知中枢”赋能IoT生态的做法，不仅为vivo打开了广阔的新品类研发空间，更为其深度推进AI产业赋能(如无障碍应用、疾病筛查、眼科医疗等)埋下了伏笔。

与此同时，站在全球化的视角，vivo也借由博鳌这个国际化窗口，传递了其角逐全球竞争的逻辑。

面对海外市场的广阔增长空间，vivo并没有选择简单的产能输出，而是坚持“More Local，More Global”的战略。不同国家的购买力、消费习惯和产品结构需求千差万别，vivo深知，只有深入本地化，才能实现真正的全球化。随着vivo X300 Ultra在MWC及博鳌上的惊艳亮相，vivo正在用世界级的产品与底层技术生态，向全球市场展示中国智造的创新高度。

在概念满天飞的当下，科技企业比拼的不再是谁能讲出更宏大的故事，而是谁能真正跨越数字与物理的鸿沟，将技术红利转化为普惠大众的生活体验。

左手以影像构建底层感知底座，右手以Agent重构人机交互生态，vivo在博鳌抛出的这份战略蓝图，不仅是在回答“下一代手机是什么”，更是在探索“下一代计算平台在哪里”。在这场通往物理世界AI的竞速赛中，脚踏实地的“慢跑者”，或许能最先触及终点。

文：严兆鑫

制版：叶敏坚刘艳兰黄炽林