谷歌机器人大脑升级：能读压力表的AI来了|仪表|压力表|知名企业|读数|谷歌机器人

谷歌DeepMind刚刚放出一个数字：Gemini Robotics-ER 1.6在仪器读数任务上的准确率，比前代1.5版本提升幅度大到需要重新画坐标轴。这不是普通的模型迭代，而是一次关于"机器人如何理解物理世界"的重新定义。

从"看见"到"读懂"：一次被低估的能力跃迁

机器人产业有个长期痛点：摄像头能拍到压力表指针，但AI不知道那代表什么。Gemini Robotics-ER 1.6把这个鸿沟填上了。

新模型解锁了「仪器读数」能力——复杂仪表、视镜、刻度盘，直接输出数值理解。这个用例来自与波士顿动力的紧密合作，不是实验室空想，是真实工厂场景倒逼出来的需求。

更深层的升级在空间推理。指向（Pointing）这个基础能力被重新设计：模型现在能用坐标点作为中间推理步骤，计数物品、标定关键位置、甚至做数学运算来修正度量估计。下图展示了多元素指向的精度——锤子2把、剪刀1把、油漆刷1把、钳子6把，还能判断花园工具该视为单组还是多个独立个体。

多视角理解是另一块硬骨头。传统单视角成功检测和多视角任务用的是不同测试集，直接对比不公平，但1.6版本在两个维度都刷新了内部基准。

工具调用：机器人终于有"手"也有"脑"

Gemini Robotics-ER 1.6的定位很清晰：高层推理模型。它不直接输出电机指令，而是原生调用工具链——Google Search查信息、视觉-语言-动作模型（VLA，即Vision-Language-Action Model）执行操作、或者任何第三方自定义函数。

这种架构解耦了"思考"和"行动"。机器人可以先搜索"这种阀门的标准扭矩是多少"，再规划动作，最后让VLA执行。失败检测也能闭环：模型能判断"螺丝是否拧紧到位"，而不是盲目前进。

对比测试显示，1.6版本在指向、计数、成功检测等空间与物理推理任务上，显著优于1.5版本和Gemini 3.0 Flash。注意一个细节：仪器读数评估启用了智能体视觉（agentic vision），而1.5版本不支持这个功能——这解释了为什么差距拉得这么大。

开发者能拿到什么

模型今天起通过Gemini API和Google AI Studio开放。谷歌同步放出了一个Colab笔记本，包含配置示例和提示词模板，降低 embodied reasoning（具身推理）任务的接入门槛。

波士顿动力的参与值得玩味。这家公司的Spot机器狗已经在工厂巡检，但"看到仪表"和"报告读数"之间始终缺一层智能。现在谷歌提供了这层大脑，波士顿动力提供身体，这种分工正在固化成行业标准范式。

一个信号：机器人竞赛正在从"硬件炫技"转向"认知能力"。谁能更好地桥接数字智能与物理动作，谁就能拿下工业场景的真订单。Gemini Robotics-ER 1.6的发布，把这个门槛又抬高了一截。

当机器人能读懂压力表的那一刻，它离"真正有用"还有多远？

谷歌机器人大脑升级：能读压力表的AI来了