2026 年美国拉斯维加斯举办的消费电子展(CES)上,黄仁勋的一场演讲,直接让物理 AI(Physical AI)成为展会最热关键词。他表示:物理 AI 的“ChatGPT 时刻”已然来临,机器开始在现实世界中理解、推理并付诸行动。
各大媒体的报道标题几乎都离不开黄仁勋的这句话,称他让英伟达成为物理 AI 基础设施的绝对主导者。此外,展会现场的“机器人狂欢”进一步强化了热度:人形机器人叠衣服,扫地机器人上下楼梯,四足机器人在人群中精准避障......
所有这些都预示着一个即将到来的未来,机器人和其他人工智能设备将与我们并肩生活在日常生活中。
展会之外,业界在共鸣之余也展现出了更深层的理性。当被问及“物理 AI 的‘ChatGPT 时刻’是否真的已经到来”时,大晓机器人首席科学家陶大程表达了与黄仁勋相似的信心,但他同时给出了一个更为精准的时空坐标:“我们正处于物理 AI 时代爆发的前夜。”
这意味着,从前夜迈向黎明仍需跨越最后的技术深壑。究竟这一刻离我们还有多远?要穿透 CES 的狂欢看清真相,必须回答三个核心议题:我们站在哪里?面临怎样的路线选择?以及真正的瓶颈是什么?
在物理 AI 浪潮奔涌之际,DeepTech 邀请了数位业界科学家,深入探讨了物理 AI 在现实世界中理解、推理并付诸行动的底层动力,以及物理 AI 在通往“ChatGPT 时刻”前夜面临的核心挑战与未来展望。
什么是物理AI?
要理解这场革命,首先必须厘清一个核心命题:到底什么是物理 AI?
在过去很长一段时间里,我们谈论的 AI,无论是击败李世石的 AlphaGo,还是能写诗作画的 ChatGPT,本质上都是数字 AI(Digital AI)。它们能在二进制的海洋里处理符号与像素,却对现实世界的重力、摩擦力与空间感一无所知。
“物理 AI 的本质在于系统必须理解物理世界。它必须将感知与世界状态的内部表征联系起来,并理解这种状态在行动和动力学影响下是如何演变的。”新加坡国立大学计算机学院副教授 Harold Soh 指出。
斯图加特大学教授、国际机器人联合会技术委员会主席 Alexander Verl 则从数据流的角度进一步补充了这种“理解”的来源:“物理 AI 的目标是扩展当前的 AI,使其具备对空间关系及物理行为的掌握。它不仅接收图像、视频等常见多模态输入,更关键的是引入了现实世界的传感器数据,旨在将这些信息转化为对物理世界的见解。”
在清华大学机械工程系副教授李曙光看来,仅仅谈论“大脑”的理解还不够,物理 AI 的版图里还隐藏着另一层主流叙事,即“物理智能”(Physical Intelligence)。
李曙光解释道,“它是指机器人除了大脑之外,还可以充分利用自己的身体(包括材料、结构和力)实现特定的智能感知、决策和运动,并与真实世界直接交互。即机器人的物理身体也是‘智能’体现的重要组成。”
这种观点的碰撞,勾勒出了物理 AI 的全貌。如果说数字 AI 是“缸中之脑”,那么物理 AI 则是要为大脑找回失落的物理常识。
“两者结合才是我们努力的方向,”李曙光总结了一个更通俗广泛的定义,即“具备物理知识的大脑,与具备智能行为的物理身体“,或称为“可理解物理的大脑和可运用物理的身体”。
其实,给机器装上身体并不是新鲜事。在过去半个世纪里,工业机器人早已在流水线上挥舞着钢铁手臂。但它们依赖于工程师写死的代码,它们假定世界是“静止”且完美的,一旦现实环境发生微小的扰动,这些机器就会抓空甚至死机。它们无法感知变化,更谈不上理解环境。
那么,为什么理解真实世界这件事这么难?
这便是困扰行业 40年的“莫拉维克悖论”:让机器人像成年人一样下棋很容易,但让它像一岁婴儿一样感知环境、处理厨房里的脏乱差,却是最难的。
而这正是物理 AI 要跨越的最后一道门槛。
模型之争
要让机器能够实时看到并解读周围环境,关键在于强大的 AI 基础模型。
早在 2022 年之前,机器人操控还主要依赖层层拆解的传统架构:先用视觉模块识别物体,再用语言模型解析指令,然后靠规划器生成路径,最后通过运动控制器输出关节指令。这种“接力式”设计虽然可靠,却极度脆弱。
转折发生在 2023年 7 月。谷歌 DeepMind 发布的 RT-2 标志着 VLA(视觉-语言-动作模型)概念的诞生。它让机器人第一次实现了从像素输入到动作输出的端到端学习。短短三年间,从 OpenVLA 的开源到英伟达 GR00T 系列的落地,VLA 似乎已成为物理 AI 的工业标配。
但在聚光灯之外,隐忧已然浮现。“现有的 VLA 模型需要海量的机器人数据进行训练,这种成本几乎是无法接受的,”新加坡南洋理工大学助理教授王子为直言。在他看来,VLA 存在着不足,比如数据饥渴、且在面对新场景与新任务时泛化能力显露疲态。
但在“规模至上”的喧嚣中,新加坡国立大学副教授 Harold Soh 提出了更为审慎的观察。他认为,虽然“扩大数据规模”已成为行业响亮的口号,但更核心的问题在于我们是否掌握了正确的“配方”。
“我们仍需弄清楚模型结构应该是怎样的、什么样的损失函数能真正诱导出所需的能力,”Harold Soh 指出。在他看来,架构进步的空间依然巨大,不能单纯寄希望于数据堆砌。他主张开发更高效且更值得信赖的模型,通过重新思考设计,使系统在泛化时能有效降低失败的严重性。
更深层的质疑指向了认知的本质。李曙光认为,单纯的 VLA 模型尚不足以承载物理世界的全部,“除了语言和视觉,还有更多感知、理解和描述物理世界的方式,VLA 并不能完整地反映真实世界运行的物理规律。”
2025 年年底,杨立昆离开了工作 12 年的 Meta,转而创办了一家专注于世界模型的初创公司 AMI Labs。他表示,人工智能行业完全被 LLM 思维所束缚,每个人都朝着同一个方向努力,互相挖走工程师。“我离开 Meta 就是因为他们也陷入了 LLM 思维的泥潭。”
正是这种对“端到端黑箱”的不满足,给了世界模型从幕后走向台前的契机。
“世界模型是可以理解并模拟世界的物理规律的,所以可以提供很便宜的虚拟环境/生成数据用于 VLA 训练以降低成本。”王子为表示。
目前,多家科技巨头与创业公司发布的世界模型,主要集中在物理规律理解与因果推理、可交互 3D 环境生成、具身智能决策支撑三大核心方向,为自动驾驶、机器人、数字孪生等场景提供底层认知与仿真能力。
进入 2026 年,这场争论正演变为一种新的共识:VLA 与世界模型并非非此即彼。
Harold Soh 预测,未来几年该领域将向混合方法收敛:即预训练主干网络结合任务及具身感知结构,并配合明确奖励可控性和鲁棒性的训练目标。
“未来趋势是融合VLA和世界模型。”香港大学助理教授陈佳玉告诉 DeepTech。他勾勒出了一条清晰的演进逻辑:先发展单场景单任务模型,再发展单场景多任务模型,最后发展多场景多任务模型。这种融合意味着,机器人将不再仅仅是在模仿人类的动作 token,而是在一个能够感知因果、模拟反馈的“数字孪生”大脑驱动下,进行闭环的感知、规划与执行。
王子为预测了更具体的技术演进方向:从端到端黑箱策略学习,转向可泛化的技能学习;从数据驱动的模仿学习,转向自我探索的强化学习;从以真实机器人数据为主,转向以世界模型、人类视频等多源低成本数据为主;从开环的动作策略生成,转向闭环的感知-规划-执行-调整架构。
数据之困
尽管技术路线逐渐清晰,但物理 AI 要真正实现规模化落地,仍需跨越一系列深层次的技术与产业壁垒。
首当其冲的是数据壁垒。但在专家们看来,这种“数据荒”与数字 AI 面临的困境有着本质的差异。
“物理 AI 面临的数据问题是数据本身从哪里来,这是一个更根本的挑战。”陶大程指出。他借用杨立昆所说的智能中的“暗物质”来形容这种独特性:大语言模型可以从互联网数千年积累的语言数据中爬取,但物理世界的经验不存在于任何过往数据库中,它只能通过与真实世界的交互来生成。
这一观点得到了Harold Soh 的认可。他进一步补充了采集这些数据的难度:“收集机器人数据的成本远比标准 LLM/VLM 更昂贵,且获取能够真正教授‘感知-动作落地’的有用数据要困难得多。我们可以(也应该)利用现有的资源,例如互联网规模的数据和强大的预训练 VLM,但将其桥接到可靠的物理交互上仍然是一个难题。”
李曙光则从科研底层提出了突破方向。他认为,我们不仅缺数据,更缺乏“对复杂物理世界或物理现象的准确描述和高效建模技术”。在他看来,必须攻克多材料与多场耦合的物理仿真技术,才能让机器人在仿真中获得真正高质量的物理常识。
然而,数据只是第一步。Harold Soh 提出了另外一个挑战:安全性与鲁棒性。“语言模型幻觉出一个事实只是个笑话,但机器人的动作幻觉却是极其危险的。”他强调,当行动产生现实后果时,系统对错误的容错率会降到极低。
这也是为什么王子为认为,现阶段我们依然缺乏足够精准、鲁棒、低成本的高自由度本体。
泛化之困
如果说数据是“燃料”,那么泛化能力则是引擎的性能,而这正是目前最让业界头疼的瓶颈。
“当前具身智能行业面临的最大困境之一,是智能被‘锁死’在特定的硬件里。”陶大程精准地捕捉到了这种碎片化现状。他发现,不仅人形、四足、机械臂之间无法迁移模型,甚至同品类不同厂商的硬件也无法互通。
这种“跨本体泛化”的缺失,意味着每一款新硬件都要从零开始积累数据。陶大程做了一个生动的类比:“这就像 PC 发展早期,每台计算机的软件只能在自己的硬件上运行,直到操作系统的出现才打破了壁垒。机器人行业今天缺少的,正是一个能够抽象掉硬件差异的统一智能层。”
王子为对此表示赞同,他将此总结为模型壁垒:“目前市场上没有足够泛化的模型。”
针对这一困局,李曙光提出了更具前瞻性的科研思路:突破AI 的自主建模、学习与演化技术。他认为,智能不应只是大脑的职责,未来的方向应该是让AI 具备在物理世界中自我演化的能力。
“规模化与泛化是深度耦合的。”陶大程总结道,没有规模化的数据和训练基础,泛化就无从谈起;而没有跨本体的泛化能力,规模化产业落地也无法实现。这种联动关系意味着,物理 AI 的突破需要的不是单一环节的技术进步,而是从数据采集、模型到本体适配的全链路协同演进。
范式演化
“数字智能”能否真正“落地具身”,Sim-to-Real(虚实迁移)起到了决定性作用。如何让 AI 高效、安全且规模化地习得真实世界的生存经验?
物理 AI 的目标是让机器人、自动驾驶车、智能设备等在真实物理世界中感知、推理并执行复杂动作。训练这些系统需要海量交互数据,但真实世界的数据采集成本高、周期长,而且存在安全风险。
因此,行业普遍采用模拟环境进行大规模训练:在虚拟世界中让 AI 反复试错、积累经验,然后将学到的策略“转移”到真实硬件上。这就是 Sim-to-Real 过程。目前,主流路径是先在高保真模拟器中大规模训练,然后将策略“转移”到真实机器人硬件上。
但“现实鸿沟”(Reality Gap)始终存在。这种差距导致转移失败率极高,比如机器人在虚拟环境中能熟练抓取,但在处理真实世界的摩擦力、光照噪声或变形物体时却频频失效。正如陶大程所言,传统的 Sim-to-Real 依赖研究者手动设计物理引擎和调优参数,这种“手工活”在面对复杂现实时,不仅难以 Scale up(规模化),更无法触及物理常识的深层逻辑。
为了弥合这种差距,Real-to-Real(实对实)范式应运而生。它主张“实践出真知”,让机器人直接通过真实的物理交互进行闭环自举。这种方式能最直接地解决策略的鲁棒性与泛化问题,因为它面对的就是真实的光照、噪声与摩擦。但其代价同样高昂:初始部署成本极高,每一次“试错”都可能意味着硬件的损毁或安全风险。这种路径虽然通往“黎明”,但在大规模规模化之前,极易在“前夜”耗尽资源。
进入 2026 年,行业正加速收敛至第三条路径:Real-Sim-Real。即从真实世界中以人为中心地采集高质量交互数据,用模型从真实数据中学习物理规律,生成海量虚拟变体/演化,再回真实硬件部署,形成终极数据飞轮。
如果把机器人学习比作人类成长:Sim-to-Real 先在书本/虚拟游戏中学习,再实战;Real-to-Real 直接在摸爬滚打中学习;Real-Sim-Real 实战采集经验,脑中复盘演练,再实战。
这三种范式的递进,本质上是在寻找成本、规模与安全之间的平衡,也标志着物理 AI 研发正式从作坊式的手工调优进入了工业化的闭环自举。当真实世界的每一秒交互都能转化为虚拟世界的无限演化,原本横亘在实验室与现实之间的“现实鸿沟”正在被这种高频的虚实反馈填平。
落地之路
尽管挑战重重,但物理AI 的商业化齿轮已经开始转动。如何判断这项技术将在哪些场景率先落地?陶大程提出了一个清晰的阶梯式分析框架:“物理AI 率先落地的,一定是那些能用规则描述的世界;最后攻克的,一定是那些只能用常识理解的世界。”
第一个阶梯是理解“空间”。在巡检、安防、文旅等场景中,所需的核心能力主要集中在导航与避障。这类任务本质上可以被规则高度定义,比如“从 A 点到 B 点,沿途检测异常”,其成功标准明确,容错空间也相对充裕。因此,这是当前物理 AI 最先能够实现规模化落地的层级。
第二个阶梯是理解“物体”。当场景进入工厂、仓储与即时零售,任务难度陡然上升。此时,机器人不仅要知道“往哪走”,还要知道“怎么拿”。这要求 AI 在理解空间的基础上,叠加对万千物体的识别与精细操作。
这一层级已有巨头先行。2025 年 9 月,由世界经济论坛与波士顿咨询联合发布的白皮书:《Physical AI: Powering the New Age of Industrial Operations》,其中就提到了两个已大规模部署的物理 AI 工业案例:亚马逊的仓储履行系统和富士康的电子组装生产线。
亚马逊通过在其仓储履行系统中深度整合具备感知与推理能力的物理 AI,实现了跨越式的效能飞跃:其客户交付速度与整体运营效率均显著提升了 25%,在生成式 AI 基础模型的驱动下,庞大的机器人舰队行驶效率再次优化 10%。尤为难得的是,物理 AI 的引入并未带来简单的劳动力替代,反而使现场技能型岗位增加了 30%,并将站点事故率压低了 15%,证明了智能自动化在保障安全与促进人才转型上的双重价值。
与此同时,精密制造巨头富士康利用物理 AI 与数字孪生技术,彻底改写了电子组装线的生产逻辑。通过模拟仿真与实时自适应系统,富士康将新产线的部署时间缩短了 40%,从过去的数月缩减至数周甚至数天;在运营成本降低 15% 的同时,生产周期缩短了 20%–30%,缺陷率更是大幅下降 25%。
第三个阶段是理解“人”。家庭场景是物理 AI 的终极命题。例如当一个人说“帮我收拾一下客厅”时,这背后的信息量是巨大的。这类判断几乎无法用规则穷举,而是极度依赖对人类生活习惯、社会规范及个体偏好的深度理解。这意味着需要更长的技术成熟周期,但它代表了物理 AI 的终极价值,也是整个行业的长期方向。
“其本质原因在于,从理解‘空间’到‘物体’再到‘人’,机器人所需要的常识在呈指数级增长。”陶大程分析道。在巡检场景中,规则能驱动 90% 的决策;而在家庭场景中,几乎所有的决策都需要常识支撑。这些常识不能被编程,只能从大规模的物理世界交互经验中习得。这也是为什么不同场景的成熟度会呈现出这样的阶梯。
在不确定中寻找确定
回到开头,黄仁勋所宣告的物理 AI 的“ChatGPT 时刻”是否已经来临?答案是否定的。
那究竟什么才是真正的里程碑?
作为科学家,Harold Soh 并不急于给出结论。他认为,“ChatGPT 时刻”往往具有滞后性,只有在事后审视时才会清晰。在他看来,判断物理 AI 是否真正解决问题的标准应是性能的阶跃式提升:即方法能否实现跨环境泛化,对长尾的边缘案例(Edge Cases)具备鲁棒性,且无需极端的工程干预。“真正的里程碑,应该是这项技术变得足够可靠且安全,以至于人们能基于此在现实世界中交付真正的价值和服务。”
如果说 Harold Soh 在寻找的是确定性的证据,那么陶大程则在试图构筑确定性的动力。
在陶大程看来,物理AI 确实已处于黎明前的“前夜”。他指出,技术完备度方面,三大支柱已逼近临界点。数据侧,通过环境式采集与世界模型放大,可实现上亿小时训练数据规模;算力侧,GPU 架构演进与国产生态成熟提供了底层支撑;模型侧,世界模型、VLA 等技术路线正从“感知”走向“推理和预测”。
但技术就绪仅是必要条件,而非充分条件。陶大程认为,物理 AI 正在复刻大语言模型的演进逻辑:从“技术完备”向“规模化 Scale up”跨越。这背后的核心驱动力,是产业界海量资源的投入。“大模型 Scaling Law 的验证,本质上依赖‘产业投入→模型进步→应用场景→数据飞轮’的正向循环。”
这种视角上的差异,揭示了物理 AI 演进的两面:一方面是科学界对安全、泛化与因果推断的严苛校验;另一方面是产业界通过全链路生态建设,试图转动那个决定性的技术飞轮。陶大程强调,产业端的突破会反向激发基础研究的活力,最终形成产研互促的闭环。
“所以在我看来,物理 AI 所有的技术条件正在加速汇聚,而能否真正跨过这个临界点,取决于产业界是否能够在这个关键窗口期合理投入,把飞轮真正转起来。”
他借用恩格斯的话总结,这条路是“从必然王国走向自由王国”。当物理 AI能够处理那些只能用常识理解的世界时,它才算真正迎来了属于它的自由时刻。
1.https://time.com/7347210/physical-ai-revolution-rewiring-global-economy/
2.https://techcrunch.com/2026/01/18/techcrunch-mobility-physical-ai-enters-the-hype-machine/
3.https://www.weforum.org/stories/2025/09/what-is-physical-ai-changing-manufacturing/
4.https://github.com/keon/awesome-physical-ai
5.https://jdmeier.com/jensen-huang-on-the-future-of-ai/
6.https://www.forbes.com/sites/stevenwolfepereira/2026/01/12/how-jensen-huang-won-ces-2026/
7.https://www.forbes.com/sites/ronschmelzer/2026/01/10/physical-ai-made-waves-at-ces-2026-what-is-it/
8.https://www.ft.com/content/3449e77c-721b-4fc9-8082-c584d8f74848
9.https://www.youtube.com/watch?v=b8BDUa-xbyA
10.https://www.technologyreview.com/2026/01/22/1131661/yann-lecuns-new-venture-ami-labs/
11.https://reports.weforum.org/docs/WEF_Physical_AI_Powering_the_New_Age_of_Industrial_Operations_2025.pdf
12.https://www.turingpost.com/p/vlaplus
13.https://www.cl.cam.ac.uk/~ey204/teaching/ACS/R244_2022_2023/papers/ha_arXiv_2018.pdf
14.https://www.cbc.ca/news/business/consumer-electronics-show-photo-scroller-9.7035070
https://x.com/RaquelUrtasun/status/2016680733423628345
排版:胡莉花
热门跟贴