打开网易新闻 查看精彩图片

作者团队来自上海交通大学 RHOS李永露团队、同济大学 GEAI 实验室与上海创智学院,长期关注具身智能领域中的世界模型、数据管理与因果理解等方向。

具身智能正在进入数据 scaling 时代。Vision-Language-Action(VLA)模型让机器人可以从大规模示教数据(demonstrations)中学习更通用的操作策略。但对机器人 VLA 训练来说,数据并不总是越多越好:低质量数据可能会拖累模型性能,而每一条 demonstration 都意味着昂贵的人力采集、机器人运行,以及云端存储和训练成本。

因此,一个问题变得愈发重要:云端数据池中的每条机器人示教轨迹,究竟应该如何量化其价值?

为回答这一问题,来自上海交通大学、同济大学、上海创智学院、西安交通大学等机构的研究团队提出了 ATHENA:一种面向十亿参数级多任务 VLA 模型的数据筛选框架。该方法将影响函数(Influence Functions)扩展到十亿参数级的多任务机器人 VLA 微调,从因果层面估计每条 demonstration 对下游机器人任务成功率的影响,进而筛选出高价值数据。

打开网易新闻 查看精彩图片

  • 论文标题:ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
  • 论文地址:https://arxiv.org/abs/2606.16208
  • 项目主页:
  • https://sii-quantum.github.io/ATHENA.github.io/

为什么需要评估机器人数据价值?

过去,机器人数据管理通常依赖人工经验,或轨迹长度、动作平滑度等启发式规则。这些方法衡量的大多是人类偏好的「数据外观质量」,缺乏与下游闭环任务表现之间的因果关联。

而影响函数提供了一种更原则化的思路:它试图低成本估计加入或移除某个训练样本前后,在下游闭环任务上的模型性能变化。换言之,它可以用更加因果化的方式回答一个关键问题:「如果保留或移除这条 demonstration,机器人最终表现会变好还是变差?」

但传统的影响函数往往面向小参数模型和单任务设计,难以直接用于十亿参数级的多任务机器人 VLA 上。一方面,逐样本梯度需要在巨大参数空间中计算和投影。对十亿参数级的 VLA 模型而言,这会带来不可接受的显存和时间开销。另一方面,多任务场景下如果只做全局排序,高梯度信号任务可能主导筛选结果,导致部分任务数据被过度丢弃。换句话说,ATHENA 要同时解决两个问题:算得动,以及选得准。

打开网易新闻 查看精彩图片

ATHENA:把影响函数推进到

十亿参数级别的多任务 VLA

ATHENA 的整体流程可以概括为:先用全量 demonstrations 微调 VLA,再执行评测收集模型的闭环评估轨迹(rollouts),随后计算每条训练 demonstration 对评测 rollouts 的因果影响,最后根据影响分数排序筛选,再重新联合微调模型。

打开网易新闻 查看精彩图片

具体来说,ATHENA 做了两件事:

第一,使用 Kronecker 结构压缩逐样本梯度,并通过随机截断加速稠密 Hessian 逆的近似。线性层权重梯度天然具有外积结构,ATHENA 不再显式构造完整参数梯度,而是分别投影输入激活和反向误差,再组合成低维特征。同时通过随机截断近似保留主要低秩子空间以降低复杂的 Hessian 求逆计算,从而使得在十亿级别 VLA 模型上的影响分数计算成为了可能。

第二,提出 Multitask Influence Interaction(MII)方案以避免多任务失衡问题。它分别估计每条 demonstration 对自身任务下游性能的局部影响(local-task influence),以及对其他任务下游性能的跨任务影响(cross-task influence),并结合两类影响进行排序。从而避免全局多任务排序时偏向强梯度任务,让筛选结果既保留自身任务内的关键样本,也考虑跨任务的全局交互影响。

计算效率:从 8054.6 到 25.7 GPU 小时

影响函数过去难以应用到具身 VLA 的核心原因之一就是计算成本。ATHENA 在这部分取得了非常明确的系统收益。

在 50 任务、约 560.5K timesteps 的设置下,未加速的投影影响函数流程需要约 8054.6 GPU 小时。ATHENA 将总耗时降低到了 25.7 GPU 小时,实现约 313.4 倍加速,使影响函数能够实际用于十亿参数级多任务 VLA 的数据管理。

打开网易新闻 查看精彩图片

实验结果:数据更少,反而更强

研究团队使用 JAX 版本的 pi 系列 VLA 模型展开实验。首先在 RoboTwin 2.0 仿真基准上,依照官方设置,包含 50 个任务和 2500 条 clean 配置下的 demonstrations,总计 9.34 小时、约 560.5K 个时间步,并考察 clean 和 randomized 两种评测环境。

结果显示,在保留 90% 的 demonstrations 后,ATHENA 在 clean / randomized 环境下 50 个任务的平均成功率分别达到 44.70% / 17.72%,高于全量数据微调的 43.42% / 15.44%。当只保留 50% demonstrations 时,ATHENA 仍然在 clean 环境中基本匹配全量训练,在 randomized 环境中超过全量训练,平均成功率达到 30.33%,高于全量训练的 29.43%。

在真实机器人实验中,研究团队基于 ALOHA 真实机器人平台设计了 6 个任务,包括简单任务:Pick Fruits、Wipe Board;中等任务:Stack Bowls、Box Return;困难任务:Seal Stamping、Shelf Retrieval。数据集包含 720 条高质量 demonstrations,总计 6.9 小时,每个任务均进行 25 次随机物体位置测试。

打开网易新闻 查看精彩图片

结果显示,单任务单独训练的 Single-100% 方案的平均成功率为 46.7%,而全量数据联合训练的 Joint-100% 提升到 60.0%。但 ATHENA 使用 66.7% 数据即可达到 68.0% 平均成功率,超过 Single-100% 和 Joint-100% 的全量数据训练,也明显优于 Random-66.7% 和人工先验偏好的 Oracle-66.7%。这说明,人类认为「看起来更优质」的数据,并不一定真正更有利于下游闭环策略表现。

可视化展示:

打开网易新闻 查看精彩图片

Pick Fruits

打开网易新闻 查看精彩图片

Wipe Board

打开网易新闻 查看精彩图片

Stack Bowls

打开网易新闻 查看精彩图片

Box Return

打开网易新闻 查看精彩图片

Seal Stamping

打开网易新闻 查看精彩图片

Shelf Retrieval

总结

ATHENA 回答了一个具身智能进入规模化阶段后无法绕开的问题:怎么量化每条 demonstration 对下游闭环任务的价值?

它把影响函数从 24M 参数级别的小模型、单任务范式推进到十亿参数 VLA、多任务联合训练范式;通过 Kronecker 梯度压缩和随机截断近似,把 50 任务影响函数计算从 8054.6 GPU 小时降到 25.7 GPU 小时;通过 MII 多任务影响建模,让数据管理既关注本任务贡献,也兼顾跨任务影响。实验结果表明,ATHENA 通过高效的数据管理方法,在使用「更少但更有价值的数据」的情况下,于仿真和真实机器人上都获得了更高回报。

而随着机器人数据规模日益增长,这种能够从因果角度高效评估数据价值的方案将变得愈发重要。ATHENA 不再仅依赖人类偏好或经验来判断数据质量,而是从下游闭环任务价值出发评估每条 demonstration,为大规模机器人数据筛选提供了一种可行思路。