ATHENA将影响函数扩展到十亿参数VLA，313×加速筛选高价值数据|多任务|大模型|梯度|轨迹

作者团队来自上海交通大学 RHOS李永露团队、同济大学 GEAI 实验室与上海创智学院，长期关注具身智能领域中的世界模型、数据管理与因果理解等方向。

具身智能正在进入数据 scaling 时代。Vision-Language-Action（VLA）模型让机器人可以从大规模示教数据（demonstrations）中学习更通用的操作策略。但对机器人 VLA 训练来说，数据并不总是越多越好：低质量数据可能会拖累模型性能，而每一条 demonstration 都意味着昂贵的人力采集、机器人运行，以及云端存储和训练成本。

因此，一个问题变得愈发重要：云端数据池中的每条机器人示教轨迹，究竟应该如何量化其价值？

为回答这一问题，来自上海交通大学、同济大学、上海创智学院、西安交通大学等机构的研究团队提出了 ATHENA：一种面向十亿参数级多任务 VLA 模型的数据筛选框架。该方法将影响函数（Influence Functions）扩展到十亿参数级的多任务机器人 VLA 微调，从因果层面估计每条 demonstration 对下游机器人任务成功率的影响，进而筛选出高价值数据。

论文标题：ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
论文地址：https://arxiv.org/abs/2606.16208
项目主页：
https://sii-quantum.github.io/ATHENA.github.io/

为什么需要评估机器人数据价值？

过去，机器人数据管理通常依赖人工经验，或轨迹长度、动作平滑度等启发式规则。这些方法衡量的大多是人类偏好的「数据外观质量」，缺乏与下游闭环任务表现之间的因果关联。

而影响函数提供了一种更原则化的思路：它试图低成本估计加入或移除某个训练样本前后，在下游闭环任务上的模型性能变化。换言之，它可以用更加因果化的方式回答一个关键问题：「如果保留或移除这条 demonstration，机器人最终表现会变好还是变差？」

但传统的影响函数往往面向小参数模型和单任务设计，难以直接用于十亿参数级的多任务机器人 VLA 上。一方面，逐样本梯度需要在巨大参数空间中计算和投影。对十亿参数级的 VLA 模型而言，这会带来不可接受的显存和时间开销。另一方面，多任务场景下如果只做全局排序，高梯度信号任务可能主导筛选结果，导致部分任务数据被过度丢弃。换句话说，ATHENA 要同时解决两个问题：算得动，以及选得准。

ATHENA：把影响函数推进到

十亿参数级别的多任务 VLA

ATHENA 的整体流程可以概括为：先用全量 demonstrations 微调 VLA，再执行评测收集模型的闭环评估轨迹（rollouts），随后计算每条训练 demonstration 对评测 rollouts 的因果影响，最后根据影响分数排序筛选，再重新联合微调模型。

具体来说，ATHENA 做了两件事：

第一，使用 Kronecker 结构压缩逐样本梯度，并通过随机截断加速稠密 Hessian 逆的近似。线性层权重梯度天然具有外积结构，ATHENA 不再显式构造完整参数梯度，而是分别投影输入激活和反向误差，再组合成低维特征。同时通过随机截断近似保留主要低秩子空间以降低复杂的 Hessian 求逆计算，从而使得在十亿级别 VLA 模型上的影响分数计算成为了可能。

第二，提出 Multitask Influence Interaction（MII）方案以避免多任务失衡问题。它分别估计每条 demonstration 对自身任务下游性能的局部影响（local-task influence），以及对其他任务下游性能的跨任务影响（cross-task influence），并结合两类影响进行排序。从而避免全局多任务排序时偏向强梯度任务，让筛选结果既保留自身任务内的关键样本，也考虑跨任务的全局交互影响。

计算效率：从 8054.6 到 25.7 GPU 小时

影响函数过去难以应用到具身 VLA 的核心原因之一就是计算成本。ATHENA 在这部分取得了非常明确的系统收益。

在 50 任务、约 560.5K timesteps 的设置下，未加速的投影影响函数流程需要约 8054.6 GPU 小时。ATHENA 将总耗时降低到了 25.7 GPU 小时，实现约 313.4 倍加速，使影响函数能够实际用于十亿参数级多任务 VLA 的数据管理。

实验结果：数据更少，反而更强

研究团队使用 JAX 版本的 pi 系列 VLA 模型展开实验。首先在 RoboTwin 2.0 仿真基准上，依照官方设置，包含 50 个任务和 2500 条 clean 配置下的 demonstrations，总计 9.34 小时、约 560.5K 个时间步，并考察 clean 和 randomized 两种评测环境。

结果显示，在保留 90% 的 demonstrations 后，ATHENA 在 clean / randomized 环境下 50 个任务的平均成功率分别达到 44.70% / 17.72%，高于全量数据微调的 43.42% / 15.44%。当只保留 50% demonstrations 时，ATHENA 仍然在 clean 环境中基本匹配全量训练，在 randomized 环境中超过全量训练，平均成功率达到 30.33%，高于全量训练的 29.43%。

在真实机器人实验中，研究团队基于 ALOHA 真实机器人平台设计了 6 个任务，包括简单任务：Pick Fruits、Wipe Board；中等任务：Stack Bowls、Box Return；困难任务：Seal Stamping、Shelf Retrieval。数据集包含 720 条高质量 demonstrations，总计 6.9 小时，每个任务均进行 25 次随机物体位置测试。

结果显示，单任务单独训练的 Single-100% 方案的平均成功率为 46.7%，而全量数据联合训练的 Joint-100% 提升到 60.0%。但 ATHENA 使用 66.7% 数据即可达到 68.0% 平均成功率，超过 Single-100% 和 Joint-100% 的全量数据训练，也明显优于 Random-66.7% 和人工先验偏好的 Oracle-66.7%。这说明，人类认为「看起来更优质」的数据，并不一定真正更有利于下游闭环策略表现。

可视化展示：

Pick Fruits

Wipe Board

Stack Bowls

Box Return

Seal Stamping

Shelf Retrieval

总结

ATHENA 回答了一个具身智能进入规模化阶段后无法绕开的问题：怎么量化每条 demonstration 对下游闭环任务的价值？

它把影响函数从 24M 参数级别的小模型、单任务范式推进到十亿参数 VLA、多任务联合训练范式；通过 Kronecker 梯度压缩和随机截断近似，把 50 任务影响函数计算从 8054.6 GPU 小时降到 25.7 GPU 小时；通过 MII 多任务影响建模，让数据管理既关注本任务贡献，也兼顾跨任务影响。实验结果表明，ATHENA 通过高效的数据管理方法，在使用「更少但更有价值的数据」的情况下，于仿真和真实机器人上都获得了更高回报。

而随着机器人数据规模日益增长，这种能够从因果角度高效评估数据价值的方案将变得愈发重要。ATHENA 不再仅依赖人类偏好或经验来判断数据质量，而是从下游闭环任务价值出发评估每条 demonstration，为大规模机器人数据筛选提供了一种可行思路。