打开网易新闻 查看精彩图片

在机器人具身智能领域,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型正以惊人的速度发展。从 RT-1、Octo 到最新的 π0、GR00T N1,这些集成了大规模视觉语言模型与机器人控制的系统展现出前所未有的泛化能力。然而,一个被长期忽视的问题正阻碍着 VLA 模型从实验室走向真实世界 ——推理阶段的不稳定性。

中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授联合清华大学、中国科学技术大学团队直面这一挑战,提出了名为TACO(Test-time Anti-exploration via pseudo-COunts)的创新框架。该研究为解决 VLA 推理的不稳定性提供了扎实的理论根基和实践方案,通过在模拟基准和真实机器人平台上的实验验证了方法的有效性。在

真实机器人实验中,TACO 将任务成功率平均提升了 16%,在长周期任务上提升高达 25%!

打开网易新闻 查看精彩图片

  • 论文地址:https://arxiv.org/abs/2512.02834
  • 项目地址: https://vla-anti-exploration.github.io/
  • 开源代码: https://github.com/breez3young/TACO/

VLA 模型的「阿喀琉斯之踵」:推理阶段的不稳定性

VLA 模型通过 flow-matching 或 diffusion 等目标在大规模多模态数据集上预训练,学习复杂行为。随后,这些预训练模型通过监督微调(SFT)适应下游任务。这种范式在平均性能上表现出色,但研究团队发现了一个关键问题:即使经过任务特定数据的微调,VLA 模型在推理时对初始噪声极其敏感。

下图展示了这一现象的严重性:对同一个经过微调的 VLA 模型,仅改变初始噪声向量,不同任务的成功率就会在 0% 至 80% 之间剧烈波动!这一发现揭示了当前 VLA 研究中的盲点 —— 追求平均性能的同时,忽略了推理稳定性这一对实际部署至关重要的指标。

打开网易新闻 查看精彩图片

「我们观察到,在使用相同的微调后 VLA 模型时,仅仅因为采样不同的初始噪声,模型表现就会天差地别。」论文第一作者,清华大学在读博士张扬解释道,「这就像让一个机器人执行同一任务,只是随机改变了它的 ' 思考方式 ',成功率就可能从完全失败到完美执行。」

问题根源:分布偏移与冗余动作模式

研究团队将这一不稳定性归因于两个关键因素:

首先,预训练阶段 VLA 模型吸收了来自多样化数据源的广泛动作模式,使其难以快速将其输出分布缩小到特定下游任务所需的狭窄成功行为集合。因此,微调后策略分布仍保留了与任务成功无关的多余模式。

其次,微调数据集本身可能表现出多模态性,因为它们通常收集自多个人类遥操作员、脚本规划器或变化的执行风格—— 其中一些编码了次优或不理想策略。这些冗余模式导致 VLA 策略与理想策略之间出现显著的分布偏移,而理想策略应对应于下游任务数据集中的稳定成功模式。

「想象一个学习做饭的厨师,他在烹饪学校学了 100 种不同的菜系和技巧(预训练),然后被要求专门做一道特定菜肴(微调)。即使经过专门训练,当面临做这道菜的情境时,他的大脑中仍会浮现多种不同的烹饪方法,其中很多并不适合这道特定菜肴。」论文共同一作,中科大在读博士杨思远形象地解释。

TACO:用「反探索」原理重塑 VLA 推理

面对这一挑战,研究团队没有选择传统的强化学习微调路线,而是另辟蹊径,从离线强化学习中的「反探索」(anti-exploration) 原理获得灵感。

在离线强化学习中,「反探索」原则旨在防止策略访问数据集支持之外的状态或动作。类比到 VLA 推理,研究团队的目标是约束生成的动作,使其保持在微调数据集中成功模式的支持范围内,避免探索预训练或不完美微调数据保留的冗余或不相关动作模式。

打开网易新闻 查看精彩图片

TACO 的核心创新在于将这一原则通过 Test-Time Scaling(TTS)来实现,而非修改 VLA 模型本身的参数。TACO 框架包含三个关键组件:

1. 耦合伪计数估计器:让 VLA 自己成为最好的验证器

TACO 最精妙的设计在于耦合伪计数估计器(Coupled Pseudo-Count Estimator)的构建。与传统方法需要额外训练独立编码器不同,TACO 直接利用 VLA 模型自身的内部表示能力,将轻量级 Coin-Flipping Network (CFN) 作为「头」(head)附加到 VLA 的最后隐藏层上。

为什么这种耦合设计如此重要?

首先,VLA 模型经过大规模预训练,其内部特征空间已经包含了丰富的视觉 - 语言 - 动作关联知识。如果训练独立的编码器,不仅需要额外的计算资源,更会丢失 VLA 模型学到的宝贵先验知识。CFN 头仅是一个简单的 MLP(多层感知机),参数量极小,却能充分利用 VLA 的表征能力。

关键突破:高保真特征搜索(High-Fidelity Feature Search)

对于基于 flow-matching 或 diffusion 的 VLA 模型(如 π0、RDT),存在一个根本性挑战:这些模型在训练时只见过噪声化的动作,从未接触过干净的真实动作数据。如果直接将微调数据集中的干净动作输入 VLA 提取特征,得到的表示可能完全不在 VLA 的特征分布范围内,导致信息丢失。

打开网易新闻 查看精彩图片

TACO 的解决方案极为巧妙 ——高保真特征搜索:对每个数据点,使用 N 个不同噪声水平 {σi} 查询 VLA N 次,得到 N 组预测动作和对应内部表示。然后选择预测动作与原始动作最接近的那组内部表示作为高保真特征。

打开网易新闻 查看精彩图片

通过这种搜索机制,TACO 确保了提取的特征既符合 VLA 的分布(因为在噪声输入下生成),又能高保真地表示干净动作(因为选择最接近真实动作的预测)。

打开网易新闻 查看精彩图片

上图现象验证了这一设计的有效性:CFN 估计的伪计数与预测动作和真实动作之间的 L2 距离呈现强负相关性。这意味着,选择具有最高伪计数的动作几乎总是会选择最接近真实动作的动作,从而有效过滤掉次优行为。

2. 生成 - 验证两阶段推理:理论与实践的完美统一

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

理论基础:离线强化学习的反探索原理

这一两阶段架构并非启发式设计,而是有坚实的理论基础。论文证明,TACO 的优化目标等价于离线强化学习中的反探索目标:

打开网易新闻 查看精彩图片

其中 Q (s,a) 是动作价值函数,b (s,a) 是反探索惩罚项。这最终简化为寻找最大访问计数的动作:

打开网易新闻 查看精彩图片

计算优化:KV 缓存的影响

两阶段架构面临的最大挑战是计算开销。朴素实现下,生成 M 个候选动作需要 M 次完整的 VLA 前向传播,计算成本呈 O (M) 增长。TACO 提出的共享观察键值缓存(Shared Observation Key-Value Cache)技术解决了这一问题:VLA 的 Transformer 主干网络的计算主要依赖于共享上下文 (观察,指令),只需计算一次 KV 缓存,即可在所有 M 个并行动作生成过程中重复使用边际成本几乎为零,使得高数量候选采样成为可能。

实验数据显示,当采样 32 个动作时,KV 缓存优化将推理时间减少了 73.2%!这一优化使得 TACO 在真实机器人上也能高效运行,平均推理延迟仅增加 200ms,满足实时控制需求。

实验证明:从模拟到真实机器人的卓越表现

研究团队在四个模拟基准(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)和一个双臂机器人平台上进行了全面评估,覆盖 64 个任务和 5 个真实世界任务。

仿真环境结果

在 RoboTwin 基准上,TACO 将 π0 模型的平均成功率从 32.2% 提升至 41.3%,提升幅度达 9.1%。在最具挑战性的 "挂衣架" 任务上,成功率从 7.0% 跃升至 12.0%。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在 Simpler-WindowX 基准上,TACO 使 π0 的平均成功率从 48.0% 提升至 55.5%。尤其在「勺子放在毛巾上」和「胡萝卜放在盘子上」等精细操作任务上,提升分别达到 16% 和 10%。

打开网易新闻 查看精彩图片

在 LIBERO-long 这一最具挑战性的终生学习基准上,尽管基础模型 π0.5 已达到 94.8% 的高成功率,TACO 仍能进一步提升 1.8%,特别是在「Moka 壶放在炉灶上」等复杂任务上,成功率从 68% 大幅提高到 86%。

打开网易新闻 查看精彩图片

真实机器人实验

研究团队使用 RealMan75 双臂机器人平台进行了 5 个真实世界任务的测试,包括「接收书籍」「收纳充电器」「纸和笔整理」「笔记本电脑操作」和「同时拿起两本书」。这些任务涵盖了人机交互、双臂协调和长周期任务执行等多种技能。

直面VLA的「阿喀琉斯之踵」
打开网易新闻 查看更多视频
直面VLA的「阿喀琉斯之踵」

结果令人振奋:TACO 将平均成功率从 40% 提升至 56%,提升幅度达 16%。在「纸和笔整理」这一精细操作任务上,提升高达 25%;在「笔记本电脑操作」长周期任务上,提升 15%。

「在真实机器人实验中,我们观察到基础策略通常在两种情况下失败:抓取位置不精确,以及遥操作数据质量不完美导致的学习偏差。」论文共同通讯作者、中国电信人工智能研究院白辰甲研究员解释道:「TACO 通过过滤掉次优的去噪方向,有效解决了这些问题。」

一个典型案例是「纸和笔整理」任务中的笔抓取阶段。由于操作员抓取姿势和时序的变化,专家数据集中抓取模式的观察 - 动作分布变得稀疏,导致基础策略表现出不稳定行为,如抓取器无法正确闭合、抓取后重新打开,或在两种抓取模式间振荡。应用 TACO 后,这些问题基本消除:抓取器始终正确闭合,机器人避免了次优模式。

技术剖析:为什么 TACO 如此有效?

实验揭示了 TACO 成功的核心机制:通过 100 次动作采样,研究团队发现 CFN 估计的伪计数与预测动作和真实动作之间的 L2 距离存在强相关性。换言之,选择具有最高伪计数的动作几乎总是会选择最接近真实动作的动作,同时有效过滤掉过于激进或不合理的动作。

消融实验进一步验证了设计选择的重要性:移除 CFN 伪计数、不进行特征缩放、或不使用内部特征,都会导致性能显著下降。特别是,直接拟合特征到动作误差的映射会增加学习难度,因为模型必须捕获最优和次优特征;使用独立编码器而非内部特征会使特征高度相似,难以进行准确的伪计数估计。

研究意义与未来展望

TACO 的提出不仅解决了一个实际问题,更为 VLA 研究开辟了新视角。与现有方法相比,「我们的方法证明,轻量级的测试时缩放可以有效地实现 ' 反探索 ',缓解动作预测中由分布偏移引起的不稳定性和性能下降。」论文共同通讯作者白辰甲研究员解释道。

展望未来,TACO 框架为 VLA 模型的实际部署提供了新思路。研究团队将继续探索如何将这一方法扩展到更复杂的多任务场景,以及如何与世界模型结合,进一步提升机器人的长期规划能力。

作者简介

本文由中科大在读杨思远和清华大学在读博士张扬作为共同一作主要完成,其他合作者包括香港科技大学何浩然博士、潘玲教授、清华大学李秀教授,本文通信作者是TeleAI 研究科学家白辰甲博士和 TeleAI 院长李学龙教授。