作者|何晴
编辑|重点君
在全民养虾的今天,看似无所不能的AI却存在一个“根本性缺陷”。
杨立昆等三位学者在2026年3月刚刚发表的联合论文中指出,当前AI缺乏与环境的真实交互,过度依赖语言训练,让AI忽视了空间感知、具身认知以及对物理世界的推理。换句话说,AI被困在数据的黑屋子里。它能解答抛向它的问题,却无法从真实世界中学习。
这个困局在2026年1月的CES上被正式“命名”。黄仁勋在演讲中17次提及一个词——“物理AI”(Physical AI),意指让摄像头、机器人和自动驾驶汽车等自主系统能够在物理世界中完成感知、理解、推理,并执行复杂操作。他形容这是AI的又一个“ChatGPT时刻”。
一个月后,博鳌亚洲论坛,vivo总裁胡柏山给出了一个更落地的答案:给AI装眼睛。他认为,AI要从虚拟世界走进现实,必须建立自己的感知体系,而感知的基础,是影像。搭载着摄像头的手机,正是AI落地的“第一现场”。
这不是技术路线之争,而是一个根本追问:AI要真正改变物理世界,它缺的到底是什么?
vivo在这条路上的探索,已在即将发布的X300 Ultra与X300s上初现轮廓。2026年3月,vivo于MWC上发布了行业首个端侧实时相机AI Agent。用户无需再进行繁琐的摄影调参步骤,手机可自动识别场景、优化参数、推荐构图,甚至预判拍摄对象的运动轨迹。
事实上,当AI火到下半场,AI的“大脑”越来越强大,我们对它的期待是否可以再进一步?不是让它更会思考,而是让它真正“看见”。毕竟,AI要真正改变物理世界,缺的不是大脑,是一双“眼睛”。
AI的“暗室困境”
如果复盘过去两年AI的发展路径,可以看到一个明显的偏向:行业在集中“造大脑”。模型越来越强,但问题也越来越明显。
今天的大模型,本质上是对历史数据的高度压缩与重组。它们可以生成内容、给出决策建议,但这些能力的前提,是“已有知识”。一旦进入实时、动态、不可预知的物理世界,问题就出现了,AI无法实时感知环境,无法验证用户输入的信息,也无法建立连续的空间理解 。举个例子,AI能写诗、能编程、能通过律师资格考试,但无法准确描述你面前这杯咖啡的温度,也无法理解一只猫从桌上跳下来时的身体协调逻辑。
胡柏山在博鳌给出了一个形象的比喻:“没有感知能力,AI是困在黑屋子里的‘大师’,算力再强,也看不见咫尺之外的世界。”
于是,一个行业性的“暗室困境”浮出水面:当所有人都在卷大模型参数、卷云端算力时,AI其实还缺一双真正的“眼睛”。
这也是为何AI狂热时代下,vivo依然在影像上押重注。模型能力最终会被拉平,谁能让AI更好地感知物理世界,谁就能在AI下半场占据先机。
当手机通过全焦段4K 120fps视频录制、端侧实时相机AI Agent,把物理世界转化为AI可以理解的数字信号时,它就不再是简单的记录工具,而是能主动感知、理解、行动的“数字伙伴。这是从Smart Phone到Agent Phone的第一步。这也是vivo在AI时代交出的自己的答卷。
而vivo敢做这个“反常”选择的原因,正是因为它有一套独属于自己的产品哲学——不追逐风口,而是回归用户真实可感知的价值。
vivo的不为哲学
如果将vivo的战略表述置于更长的时间维度去观察,便能窥见其独有的战略定力——择其不为,进而有为。在行业这场AI狂欢中,vivo始终保持着清醒与冷静。
单从技术趋势看,vivo没有第一时间All in通用大模型,甚至在一些热门赛道上主动踩刹车。
但如果换一个视角——从用户出发,这条路径反而变得清晰。
在采访中,胡柏山反复强调一个判断:“用户要的不是功能,而是体验。”这句话看似简单,却决定了vivo在AI时代的几乎所有战略取舍。
2026年1月,vivo叫停了筹备近半年的AI眼镜项目的消息引发行业热议。胡柏山在受访时道出了背后的思考:“第一,这个品类能否做出差异化?如果没有差异化,很快就会陷入同质化,最终沦为价格战。第二,这个东西对用户而言是否足够刚需?AI眼镜或许能在部分细分场景里能满足刚需,但对绝大多数用户来说并非必需。第三,我们做产品,不想只做一个60分,必须要做到80分以上。”
这不是vivo首次在风口面前选择“不为”。不盲目去追逐OpenClaw,也不刻意追求大参数模型的比拼,vivo始终有着自己的一套AI战略逻辑。
而这套逻辑的底层,是vivo一以贯之的“用户导向”——所有战略取舍的出发点,从来不是技术能否实现,而是用户能否真实感知到产品的价值。正如vivo创始人沈炜在2026年新年致辞中所言:“意识不等于能力,共识不等于结果。”vivo要把用户导向从意识上的重视,转化为可复用、可沉淀的系统化洞察与认知体系。
因此,当行业深陷大模型参数军备竞赛,陷入概念炒作与风口追逐的漩涡时,vivo选择将核心资源聚焦在一个关键命题上:如何让手机更好地感知物理世界,从而更懂用户?而非为博取市场噱头而盲目入局。
于是,我们可以看到的是,vivo将资源聚焦在了感知能力赛道,让手机这个最贴近用户的设备,长出感知物理世界的“眼睛”。在影像技术领域,vivo已经深耕多年。从传感器、光学系统到影像芯片与算法协同,影像能力早已被vivo拆解为一整套系统工程。自研蓝图传感技术、蓝图算法矩阵及蓝图影像芯片,vivo在硬件与算法的协同上形成了独特的护城河。这种能力,正是其在AI时代构建感知体系的技术底座。
2026年,vivo在博鳌正式宣布成立“感知”赛道,融合视觉、听觉、触觉等多模态能力,通过传感器与感知大模型,把物理世界的各类信息转化为机器能读懂的数字信号。在胡柏山看来,这正是最关键的差异化所在:“未来大模型之间的差异不会太大,真正决定智能体体验好坏的,关键就是场景数据,这是无法替代的。”
AI领域,vivo的布局也远比外界想象的要早。胡柏山在博鳌演讲中透露:“我们AI团队已经建立有10年了,在这个方向上的投入决心是比较大的。”这约1000人的AI团队分布在vivo全球多个研发中心,其中杭州算法研究信息中心是vivo影像算法的核心基地,新建立的vivo杭州研发中心也将于明年将投入使用。
而在这个充满FOMO情绪的时代,vivo用“不做什么”划定了自己的边界,也找到了穿越周期的确定性。
AI时代的“眼睛之战”
如今,“物理AI”的浪潮正在加速。
根据Acumen Research and Consulting发布的报告,全球Physical AI市场预计于2026年达64.4亿美元,2035年将增长至827.9亿美元,年复合增长率高达32.8%。报告指出,计算机视觉是该市场中规模最大、增长最快的技术领域。
vivo的布局正与这一趋势同步。胡柏山在博鳌透露的vivo的布局,也比手机更远。
在vivo内部,“感知能力”被定义为一级技术赛道。它不仅服务手机,更指向一个更远的目标,即物理世界的智能化接口。这条路径可以分为三层:手机是最便捷、场景最密集的入口,空间设备(MR)能够训练空间理解能力,机器人则能进入真实的物理世界操作。
为了实现物理AI的目标,一部分公司从云端模型出发,向下延伸,另一部分,从机器人具身能力出发,向上补智能。
而vivo选择从“感知”切入,向两端延展。
2025年3月,vivo正式宣布成立机器人Lab,首次披露进军家庭机器人领域的战略规划。而vivo专注于研发家庭机器人的“大脑”(AI决策系统)和“眼睛”(空间感知与视觉系统)。这种渐进式推进,不追求一步到位的战略 ,被胡柏山称之为“沿途下蛋”策略。这也是vivo用户导向思路的延伸。
在博鳌演讲的结尾,胡柏山讲了两个故事。一个是失明的宝哥,带着导盲犬和vivo手机环游中国,“vivo看见”帮他记住了每个人的样子;另一个是诺子,在冰岛的冰河湖旁,手机AI为她讲述眼前的景象:湖面漂浮着冰块,游客在拍照,远处有海鸟飞过。
这两个例子不仅让我们看到技术可以有温度,也让我们意识到,AI开始介入“人的感知”。
当影像记录记忆,AI学习习惯,两者融合后,这种感知能力从手机延伸至头显、机器人,构建“视觉+大脑”的生态平台,最终每个人拥有可传承的“数字DNA”。这意味着, 智能设备不仅可以理解人的行为 ,还能理解行为背后的偏好、情绪与关系,并持续积累、迁移、进化 ,这可能正是Agent Phone的终局形态。不是一个更聪明的工具,而是一个“持续理解你”的系统。
胡柏山在采访最后说了一句话:“科技的高度,终须回归人的尺度。”
vivo选择用影像这双“眼睛”,替人类去看见、去理解、去改变这个物理世界。这种路径可能不够快,但足够扎实——因为它始终围绕着用户真实可感知的价值。
在这个AI狂飙突进的时代,这句话或许是对当下FOMO情绪最好的提醒。
热门跟贴