谷歌Gemini机器人升级：物理世界推理能力来了

固件更新中

2026-04-15 08:49 ·北京

谷歌DeepMind刚刚放出一个信号：机器人要开始"看懂"真实世界了。

这次升级的核心，是让Gemini机器人获得物理推理能力——不是识别物体，而是理解物体之间的关系、预测动作后果。简单说，以前的机器人是"看见杯子"，现在是"知道杯子放在桌边会掉"。

为什么是物理推理？

这是机器人从"执行指令"到"自主决策"的关键一跃。

当前大多数机器人依赖预设程序或大量人工标注数据。物理推理意味着模型能自己推导"如果推这个箱子，旁边的箱子会不会倒"——这种能力在物流、制造、家庭场景中直接决定实用性。

谷歌选择在这个节点升级，瞄准的正是具身智能（Embodied AI，即让AI拥有物理身体并与环境交互）的爆发前夜。

技术路径的取舍

DeepMind没有走纯仿真路线。他们让Gemini同时处理视觉输入和物理约束，相当于给大语言模型加装了"空间直觉"。

这种做法的代价是计算成本更高，但收益是泛化能力——同一套模型能从厨房场景迁移到仓库场景，而不需要重新训练。

一个细节：升级强调"推理"而非"感知"。说明谷歌认为感知问题（看清东西）已相对解决，真正的瓶颈是让机器人"想明白"再动手。

商业落地的暗线

物理推理直接对应两个万亿级市场：工业自动化和家用服务机器人。

工业场景里，能预判碰撞、规划路径的机器人可以减少产线停机时间。家庭场景更关键——没有物理推理，机器人连"把碗放进洗碗机而不砸碎"都做不到。

谷歌此时升级Gemini，也是在为Android生态预留接口。未来第三方硬件厂商可能直接调用这套能力，而非自建AI团队。

一个被忽略的信号

公告里用了"rolling out"（逐步推出），而非实验室发布。说明技术已越过论文阶段，进入工程化落地。

这与OpenAI的机器人布局形成对照：后者更依赖外部合作（Figure AI），谷歌选择全栈自研。两种模式谁更快规模化，2025年会有分晓。

当机器人开始理解"重力"和"摩擦力"，我们离"通用机器人"还有多远？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴