谷歌DeepMind刚刚放出一个信号:机器人要开始"看懂"真实世界了。
这次升级的核心,是让Gemini机器人获得物理推理能力——不是识别物体,而是理解物体之间的关系、预测动作后果。简单说,以前的机器人是"看见杯子",现在是"知道杯子放在桌边会掉"。
为什么是物理推理?
这是机器人从"执行指令"到"自主决策"的关键一跃。
当前大多数机器人依赖预设程序或大量人工标注数据。物理推理意味着模型能自己推导"如果推这个箱子,旁边的箱子会不会倒"——这种能力在物流、制造、家庭场景中直接决定实用性。
谷歌选择在这个节点升级,瞄准的正是具身智能(Embodied AI,即让AI拥有物理身体并与环境交互)的爆发前夜。
技术路径的取舍
DeepMind没有走纯仿真路线。他们让Gemini同时处理视觉输入和物理约束,相当于给大语言模型加装了"空间直觉"。
这种做法的代价是计算成本更高,但收益是泛化能力——同一套模型能从厨房场景迁移到仓库场景,而不需要重新训练。
一个细节:升级强调"推理"而非"感知"。说明谷歌认为感知问题(看清东西)已相对解决,真正的瓶颈是让机器人"想明白"再动手。
商业落地的暗线
物理推理直接对应两个万亿级市场:工业自动化和家用服务机器人。
工业场景里,能预判碰撞、规划路径的机器人可以减少产线停机时间。家庭场景更关键——没有物理推理,机器人连"把碗放进洗碗机而不砸碎"都做不到。
谷歌此时升级Gemini,也是在为Android生态预留接口。未来第三方硬件厂商可能直接调用这套能力,而非自建AI团队。
一个被忽略的信号
公告里用了"rolling out"(逐步推出),而非实验室发布。说明技术已越过论文阶段,进入工程化落地。
这与OpenAI的机器人布局形成对照:后者更依赖外部合作(Figure AI),谷歌选择全栈自研。两种模式谁更快规模化,2025年会有分晓。
当机器人开始理解"重力"和"摩擦力",我们离"通用机器人"还有多远?
热门跟贴