谷歌DeepMind刚刚放出一个数字:Gemini Robotics-ER 1.6在仪器读数任务上的准确率,比前代1.5版本提升幅度大到需要重新画坐标轴。这不是普通的模型迭代,而是一次关于"机器人如何理解物理世界"的重新定义。

从"看见"到"读懂":一次被低估的能力跃迁

打开网易新闻 查看精彩图片

机器人产业有个长期痛点:摄像头能拍到压力表指针,但AI不知道那代表什么。Gemini Robotics-ER 1.6把这个鸿沟填上了。

新模型解锁了「仪器读数」能力——复杂仪表、视镜、刻度盘,直接输出数值理解。这个用例来自与波士顿动力的紧密合作,不是实验室空想,是真实工厂场景倒逼出来的需求。

更深层的升级在空间推理。指向(Pointing)这个基础能力被重新设计:模型现在能用坐标点作为中间推理步骤,计数物品、标定关键位置、甚至做数学运算来修正度量估计。下图展示了多元素指向的精度——锤子2把、剪刀1把、油漆刷1把、钳子6把,还能判断花园工具该视为单组还是多个独立个体。

多视角理解是另一块硬骨头。传统单视角成功检测和多视角任务用的是不同测试集,直接对比不公平,但1.6版本在两个维度都刷新了内部基准。

工具调用:机器人终于有"手"也有"脑"

Gemini Robotics-ER 1.6的定位很清晰:高层推理模型。它不直接输出电机指令,而是原生调用工具链——Google Search查信息、视觉-语言-动作模型(VLA,即Vision-Language-Action Model)执行操作、或者任何第三方自定义函数。

这种架构解耦了"思考"和"行动"。机器人可以先搜索"这种阀门的标准扭矩是多少",再规划动作,最后让VLA执行。失败检测也能闭环:模型能判断"螺丝是否拧紧到位",而不是盲目前进。

对比测试显示,1.6版本在指向、计数、成功检测等空间与物理推理任务上,显著优于1.5版本和Gemini 3.0 Flash。注意一个细节:仪器读数评估启用了智能体视觉(agentic vision),而1.5版本不支持这个功能——这解释了为什么差距拉得这么大。

开发者能拿到什么

模型今天起通过Gemini API和Google AI Studio开放。谷歌同步放出了一个Colab笔记本,包含配置示例和提示词模板,降低 embodied reasoning(具身推理)任务的接入门槛。

波士顿动力的参与值得玩味。这家公司的Spot机器狗已经在工厂巡检,但"看到仪表"和"报告读数"之间始终缺一层智能。现在谷歌提供了这层大脑,波士顿动力提供身体,这种分工正在固化成行业标准范式。

一个信号:机器人竞赛正在从"硬件炫技"转向"认知能力"。谁能更好地桥接数字智能与物理动作,谁就能拿下工业场景的真订单。Gemini Robotics-ER 1.6的发布,把这个门槛又抬高了一截。

当机器人能读懂压力表的那一刻,它离"真正有用"还有多远?