大模型狂热两年后，vivo 决定帮 AI 走出“暗室”|vivo|大模型|手机|暗室|机器人|相机|算法

作者｜何晴

编辑｜重点君

在全民养虾的今天，看似无所不能的AI却存在一个“根本性缺陷”。

杨立昆等三位学者在2026年3月刚刚发表的联合论文中指出，当前AI缺乏与环境的真实交互，过度依赖语言训练，让AI忽视了空间感知、具身认知以及对物理世界的推理。换句话说，AI被困在数据的黑屋子里。它能解答抛向它的问题，却无法从真实世界中学习。

这个困局在2026年1月的CES上被正式“命名”。黄仁勋在演讲中17次提及一个词——“物理AI”（Physical AI），意指让摄像头、机器人和自动驾驶汽车等自主系统能够在物理世界中完成感知、理解、推理，并执行复杂操作。他形容这是AI的又一个“ChatGPT时刻”。

一个月后，博鳌亚洲论坛，vivo总裁胡柏山给出了一个更落地的答案：给AI装眼睛。他认为，AI要从虚拟世界走进现实，必须建立自己的感知体系，而感知的基础，是影像。搭载着摄像头的手机，正是AI落地的“第一现场”。

这不是技术路线之争，而是一个根本追问：AI要真正改变物理世界，它缺的到底是什么？

vivo在这条路上的探索，已在即将发布的X300 Ultra与X300s上初现轮廓。2026年3月，vivo于MWC上发布了行业首个端侧实时相机AI Agent。用户无需再进行繁琐的摄影调参步骤，手机可自动识别场景、优化参数、推荐构图，甚至预判拍摄对象的运动轨迹。

事实上，当AI火到下半场，AI的“大脑”越来越强大，我们对它的期待是否可以再进一步？不是让它更会思考，而是让它真正“看见”。毕竟，AI要真正改变物理世界，缺的不是大脑，是一双“眼睛”。

AI的“暗室困境”

如果复盘过去两年AI的发展路径，可以看到一个明显的偏向：行业在集中“造大脑”。模型越来越强，但问题也越来越明显。

今天的大模型，本质上是对历史数据的高度压缩与重组。它们可以生成内容、给出决策建议，但这些能力的前提，是“已有知识”。一旦进入实时、动态、不可预知的物理世界，问题就出现了，AI无法实时感知环境，无法验证用户输入的信息，也无法建立连续的空间理解。举个例子，AI能写诗、能编程、能通过律师资格考试，但无法准确描述你面前这杯咖啡的温度，也无法理解一只猫从桌上跳下来时的身体协调逻辑。

胡柏山在博鳌给出了一个形象的比喻：“没有感知能力，AI是困在黑屋子里的‘大师’，算力再强，也看不见咫尺之外的世界。”

于是，一个行业性的“暗室困境”浮出水面：当所有人都在卷大模型参数、卷云端算力时，AI其实还缺一双真正的“眼睛”。

这也是为何AI狂热时代下，vivo依然在影像上押重注。模型能力最终会被拉平，谁能让AI更好地感知物理世界，谁就能在AI下半场占据先机。

当手机通过全焦段4K 120fps视频录制、端侧实时相机AI Agent，把物理世界转化为AI可以理解的数字信号时，它就不再是简单的记录工具，而是能主动感知、理解、行动的“数字伙伴。这是从Smart Phone到Agent Phone的第一步。这也是vivo在AI时代交出的自己的答卷。

而vivo敢做这个“反常”选择的原因，正是因为它有一套独属于自己的产品哲学——不追逐风口，而是回归用户真实可感知的价值。

vivo的不为哲学

如果将vivo的战略表述置于更长的时间维度去观察，便能窥见其独有的战略定力——择其不为，进而有为。在行业这场AI狂欢中，vivo始终保持着清醒与冷静。

单从技术趋势看，vivo没有第一时间All in通用大模型，甚至在一些热门赛道上主动踩刹车。

但如果换一个视角——从用户出发，这条路径反而变得清晰。

在采访中，胡柏山反复强调一个判断：“用户要的不是功能，而是体验。”这句话看似简单，却决定了vivo在AI时代的几乎所有战略取舍。

2026年1月，vivo叫停了筹备近半年的AI眼镜项目的消息引发行业热议。胡柏山在受访时道出了背后的思考：“第一，这个品类能否做出差异化？如果没有差异化，很快就会陷入同质化，最终沦为价格战。第二，这个东西对用户而言是否足够刚需？AI眼镜或许能在部分细分场景里能满足刚需，但对绝大多数用户来说并非必需。第三，我们做产品，不想只做一个60分，必须要做到80分以上。”

这不是vivo首次在风口面前选择“不为”。不盲目去追逐OpenClaw，也不刻意追求大参数模型的比拼，vivo始终有着自己的一套AI战略逻辑。

而这套逻辑的底层，是vivo一以贯之的“用户导向”——所有战略取舍的出发点，从来不是技术能否实现，而是用户能否真实感知到产品的价值。正如vivo创始人沈炜在2026年新年致辞中所言：“意识不等于能力，共识不等于结果。”vivo要把用户导向从意识上的重视，转化为可复用、可沉淀的系统化洞察与认知体系。

因此，当行业深陷大模型参数军备竞赛，陷入概念炒作与风口追逐的漩涡时，vivo选择将核心资源聚焦在一个关键命题上：如何让手机更好地感知物理世界，从而更懂用户？而非为博取市场噱头而盲目入局。

于是，我们可以看到的是，vivo将资源聚焦在了感知能力赛道，让手机这个最贴近用户的设备，长出感知物理世界的“眼睛”。在影像技术领域，vivo已经深耕多年。从传感器、光学系统到影像芯片与算法协同，影像能力早已被vivo拆解为一整套系统工程。自研蓝图传感技术、蓝图算法矩阵及蓝图影像芯片，vivo在硬件与算法的协同上形成了独特的护城河。这种能力，正是其在AI时代构建感知体系的技术底座。

2026年，vivo在博鳌正式宣布成立“感知”赛道，融合视觉、听觉、触觉等多模态能力，通过传感器与感知大模型，把物理世界的各类信息转化为机器能读懂的数字信号。在胡柏山看来，这正是最关键的差异化所在：“未来大模型之间的差异不会太大，真正决定智能体体验好坏的，关键就是场景数据，这是无法替代的。”

AI领域，vivo的布局也远比外界想象的要早。胡柏山在博鳌演讲中透露：“我们AI团队已经建立有10年了，在这个方向上的投入决心是比较大的。”这约1000人的AI团队分布在vivo全球多个研发中心，其中杭州算法研究信息中心是vivo影像算法的核心基地，新建立的vivo杭州研发中心也将于明年将投入使用。

而在这个充满FOMO情绪的时代，vivo用“不做什么”划定了自己的边界，也找到了穿越周期的确定性。

AI时代的“眼睛之战”

如今，“物理AI”的浪潮正在加速。

根据Acumen Research and Consulting发布的报告，全球Physical AI市场预计于2026年达64.4亿美元，2035年将增长至827.9亿美元，年复合增长率高达32.8%。报告指出，计算机视觉是该市场中规模最大、增长最快的技术领域。

vivo的布局正与这一趋势同步。胡柏山在博鳌透露的vivo的布局，也比手机更远。

在vivo内部，“感知能力”被定义为一级技术赛道。它不仅服务手机，更指向一个更远的目标，即物理世界的智能化接口。这条路径可以分为三层：手机是最便捷、场景最密集的入口，空间设备（MR）能够训练空间理解能力，机器人则能进入真实的物理世界操作。

为了实现物理AI的目标，一部分公司从云端模型出发，向下延伸，另一部分，从机器人具身能力出发，向上补智能。

而vivo选择从“感知”切入，向两端延展。

2025年3月，vivo正式宣布成立机器人Lab，首次披露进军家庭机器人领域的战略规划。而vivo专注于研发家庭机器人的“大脑”（AI决策系统）和“眼睛”（空间感知与视觉系统）。这种渐进式推进，不追求一步到位的战略，被胡柏山称之为“沿途下蛋”策略。这也是vivo用户导向思路的延伸。

在博鳌演讲的结尾，胡柏山讲了两个故事。一个是失明的宝哥，带着导盲犬和vivo手机环游中国，“vivo看见”帮他记住了每个人的样子；另一个是诺子，在冰岛的冰河湖旁，手机AI为她讲述眼前的景象：湖面漂浮着冰块，游客在拍照，远处有海鸟飞过。

这两个例子不仅让我们看到技术可以有温度，也让我们意识到，AI开始介入“人的感知”。

当影像记录记忆，AI学习习惯，两者融合后，这种感知能力从手机延伸至头显、机器人，构建“视觉+大脑”的生态平台，最终每个人拥有可传承的“数字DNA”。这意味着，智能设备不仅可以理解人的行为，还能理解行为背后的偏好、情绪与关系，并持续积累、迁移、进化，这可能正是Agent Phone的终局形态。不是一个更聪明的工具，而是一个“持续理解你”的系统。

胡柏山在采访最后说了一句话：“科技的高度，终须回归人的尺度。”

vivo选择用影像这双“眼睛”，替人类去看见、去理解、去改变这个物理世界。这种路径可能不够快，但足够扎实——因为它始终围绕着用户真实可感知的价值。

在这个AI狂飙突进的时代，这句话或许是对当下FOMO情绪最好的提醒。