这项由字节跳动Seed实验室、北京大学与清华大学联合开展的研究发表于2026年6月,论文编号为arXiv:2606.24742,感兴趣的读者可通过该编号查询完整论文。
现代机器人技术正在经历一场安静却深刻的变革。科研人员不再只关心机器人能不能完成任务,而是开始追问:机器人在完成任务的过程中,自己到底有没有"看懂"自己在干什么?这个问题乍听之下有些哲学味道,但背后藏着一个非常实际的工程难题——当机器人从大量混杂质量的操作视频中学习时,它怎么知道哪段视频值得学、哪段视频不值得学?
这支联合团队提出了一个叫做"世界价值模型"(World Value Model,以下简称WVM)的新框架,以及一个全新的评测基准——"次优价值测试集"(Suboptimal-Value-Bench)。这项研究的核心思路,用一句话来概括就是:与其用"读图识字"的模型来判断机器人任务完成了多少,不如用真正懂视频、懂时间流动的模型来做这件事。
一、机器人学习的隐藏难题:谁来告诉它哪段录像该学?
想一下你刚开始学做菜的场景。你找来一堆菜谱视频,有的是大厨示范的精准操作,有的是家庭主妇边聊天边拖拉的随意记录,还有一些是拍了一半放弃的失败案例。如果你不加区分地照单全收,可能学了一堆坏习惯。机器人面临的处境完全一样。
机器人研究领域现在流行的做法是:从海量的人类操作视频中让机器人学习动作策略。这些视频来自各处,质量参差不齐——有专业操作员流畅完成任务的"模范"示范,也有操作中途卡壳、犹豫、失败后重来的"次优"片段。如果机器人把所有视频都当成同等重要的课本去学,它会把那些"错误示范"里的迟疑、失误都当成正常操作记下来。这直接导致它学出来的动作策略既低效又不稳定。
解决这个问题的关键,就是一个能判断"当前这帧视频里,任务完成了多少比例"的工具——也就是所谓的价值模型(Value Model)。价值模型的任务是给每一帧视频打一个0到1之间的分数:0表示任务刚开始,1表示任务已经完成。有了这个分数,机器人就可以优先学习那些稳定向前推进的片段,忽略或者降低那些停滞、倒退的片段的权重。
二、现有方法的三道坎:为什么"读图识字"不够用?
现有的价值模型大多是在一类叫做"视觉语言模型"(VLM)的技术基础上搭建的。VLM是什么?你可以把它理解成一个"看图说话"的AI——它擅长看一张图,然后回答"这张图里有什么"、"任务完成了吗"这类问题。GPT-4V、Qwen-VL等都是这类模型的代表。
但问题就出在这里。"看图说话"的模型有一个天然的局限:它的训练素材大多是独立的图片,或者是时间上很稀疏的截图序列。换句话说,它并不真正理解"时间流动"这件事。
研究团队指出现有方法被三道坎挡住了。第一道坎是"监督信号太稀"——现有方法通常只用一个单一的数字来督导模型学习,比如"这段任务完成了0.7",这个信号非常贫乏,模型很难从中学到细腻的进展规律。第二道坎是"只会做一道菜"——很多现有的价值模型是专门为某一个具体任务设计的,比如专门评估"把杯子放进箱子"这个动作,换一个任务就完全失效,根本无法作为通用工具使用。第三道坎是最根本的:这些建立在VLM上的模型缺乏对时间动态的感知能力。它不理解"机器人爪子向前伸了三帧又缩回来"意味着什么,它只能看到每一帧的静态画面。
三、世界模型:天生懂"时间"的大脑
与VLM形成对比的,是另一类近年来迅速崛起的技术——世界模型(World Model)。世界模型的核心能力是预测:给它看一段视频的前半段,它能推测接下来会发生什么。Sora、Wan等视频生成模型背后的技术,本质上就属于这个范畴。
世界模型天生就是在处理"时间序列"这件事上打磨出来的。它不是在看一张张独立的图片,而是在理解事物如何随时间变化、一个动作会导致什么后果、现在的状态预示着未来的走向。这正是判断任务进展所需要的能力。
研究团队的核心洞见是:既然世界模型已经掌握了理解时间动态的能力,何不直接把它的"大脑"借来,用于判断任务价值?这就是WVM的起点。
四、WVM的设计:给世界模型装上一个"进度条"
WVM在技术上的构建方式,可以用一个工厂生产线的比喻来理解。工厂里原本有一条成熟的视频处理流水线(这是世界模型部分),现在研究团队在这条流水线旁边增设了一条专门生产"进度评分"的副线(这是价值模型部分),两条线并行运作,但副线可以随时从主线上获取信息。
具体来说,WVM的基础是Wan2.2这个开源视频生成模型。对于任意一段机器人操作视频,WVM首先截取一个时间窗口:一帧"前缀帧"(提供背景参考)、h帧当前观测画面,以及h帧未来预测画面,三者合成一个时间胶囊,送入视频变分自编码器(Video VAE)压缩成紧凑的隐空间表示。这个过程相当于把视频"浓缩"成一段富含时空信息的特征代码。
在这份代码之上,视频DiT(扩散变换器)负责处理原本的视频生成任务,而与之并行的价值DiT则专门负责生成价值评分序列。两条流水线通过一种叫做"混合变换器"(Mixture-of-Transformers,MoT)的机制紧密耦合:价值流水线可以直接"旁听"视频流水线产生的中间特征,但视频流水线对价值流水线的存在完全无感知。这种单向信息传递的设计非常精妙——价值流水线充分吸收了视频理解的精华,同时又不干扰视频生成任务本身,确保世界模型的时空理解能力不会因为"兼职"而退化。
价值DiT的输出不是一个单一的数字,而是一组连续的价值分数序列——也就是一个"进度曲线块"。用流动匹配(Flow Matching)这种技术来训练模型生成这条曲线,相当于给模型提供了一种连续、细腻的监督方式,远比只给一个"0.7分"更能引导模型学到进展的细节。
五、训练中的两个小技巧:防止作弊,学会倒退
有了这个双流架构,研究团队还引入了两个非常有针对性的训练增强手段,来解决实际中遇到的具体问题。
第一个是"前缀随机化"。在推断阶段,WVM会用滑动窗口的方式处理一段长视频:每次处理一个时间块,相邻时间块之间有重叠,前一个块的末尾评分会作为下一个块的"前缀"输入,帮助保持评分的连续性。这本是好事,但研究团队发现这里潜藏着一个风险:模型可能会养成"懒惰"的习惯,只是把前缀的分数往前搬,而不真正去看画面里发生了什么。为了防止这种投机取巧,他们在训练时随机地用一个0到1之间的随机数来替换正确的前缀值,强迫模型每次都不得不认真观察画面内容来给出评分。
第二个是"视频倒放增强"。机器人的训练数据绝大多数来自成功完成任务的示范,这意味着价值分数几乎总是单调递增的——任务越来越接近完成。但现实中,机器人经常出现"倒退"情况,比如抓件失败后手臂缩回去重试。这种情况下价值分数理应下降,但模型从来没见过这种模式怎么办?研究团队借鉴了"ReWiND"方法,在训练时人为构造下降和平稳的进度曲线:对某个时间窗口内的帧进行倒序排列,就模拟出了"退步"的场景;对同一帧重复播放,就模拟出了"停滞"的场景。配合重新标注的价值标签,模型得以见识到进展曲线的全部形态。
六、次优价值测试集:给"不完美表现"打分的新考场
在介绍WVM的性能之前,有必要先解释一下这项研究的另一个重要贡献——Suboptimal-Value-Bench的由来和设计。
现有的价值模型评测体系有一个明显的盲区:它们几乎只在"成功的、流畅的"演示视频上评测。这就好像只在晴天考驾照,从不在雨天或堵车情况下测试一样,通过了也不代表真的会开车。现实中的机器人数据充满了"次优"片段——操作员有时会停下来想一想,有时会因为抓取失败而把手臂缩回来重试。一个真正好用的价值模型,必须能准确识别这些"问题片段"。
研究团队为此构建了一个包含800条人工标注轨迹的测试集,覆盖三种机器人平台(AgileX双臂机器人、ARX双臂机器人、RoboSuite仿真单臂机器人)和15个操作任务,总时长超过213分钟。每条轨迹都经过人工精确标注了帧级别的"真实价值曲线"。
测试集重点关注两种典型的次优行为模式。一种是"犹豫"——机器人爪子停在目标物体上方,既没往前抓也没缩回去,原地僵持了几秒。这段时间里任务根本没有进展,价值分数应该保持平稳不变。评测这种情况用的是RMSE误差指标,即预测分数与真实恒定分数之间的差距,差距越小说明模型越不会在本该稳定的时候乱飘。另一种是"重试"——机器人尝试抓取失败,手臂后退,任务进展实际上在倒退。评测这种情况用的是VOC相关性指标,重点看模型的预测曲线和真实的下降曲线是否一致走向,方向对了才算及格。
为了生成这800条标注数据,研究团队采用了一套两阶段流程。先用一个大型视觉语言模型自动分析每条视频,粗略定位出"没有进展"的片段;再让人工标注员在专用的界面上精确调整边界,确保每一帧的标注都是由人类最终确认的,而不是模型一手包办的。
七、实验成绩:在三张考卷上的表现
研究团队将WVM与六个竞争方法进行了系统对比,这六个方法分别是:GVL、VLAC、Robometer、TopReward、RoboReward和Robo-Dopamine,均是当前机器人价值估计领域的代表性工作。
在"犹豫检测"这张考卷上,WVM的平均RMSE错误率只有0.05,而同样表现不错的GVL和Robometer的错误率是0.14,是WVM的将近三倍。这意味着当机器人在原地踏步时,WVM能稳稳地维持评分不乱跳,而其他方法的评分会因为"不知道该给多少分"而上下抖动。
在"重试检测"这张考卷上,WVM的平均Retry-VOC得分是0.78,而最强基线GVL只有0.62,其他方法有的得了负分——意味着它们的预测方向完全反了,任务进展在下降时它们反而给出了上升的评分。这个差距非常直观地说明了WVM在理解"倒退"这件事上的显著优势。
在面向成功示范的传统Expert-VOC测试上,WVM的平均得分是0.95,高于最强基线的0.88,在六个数据集中拿下了五个第一,在自行收集的三个机器人平台数据上更是逼近满分的0.99。唯一的例外是EgoDex数据集,另一个基线RoboReward略高(0.95对0.92)。研究团队对此做了有趣的分析:这恰恰说明传统的Expert-VOC指标本身存在局限性,某种程度上奖励了那些"依赖前缀数值外推"的投机策略,而不是真正理解视频内容的模型。
八、机器人真的开窍了?下游策略提升实验
价值模型的终极意义不在于打分,而在于帮机器人从混乱的数据中淘金。研究团队在三个仿真RoboSuite任务(叠方块、把麦片放进托盘、把牛奶放进托盘)和三个真实AgileX双臂机器人任务(把老鼠放进盒子、把虾放进锅、把记号笔放进支架)上验证了WVM对机器学习策略的提升效果。
为了模拟真实场景中数据质量不佳的挑战,实验刻意只使用次优数据进行策略微调:仿真任务每个只用10条轨迹,真实任务每个只用50条轨迹。基础策略采用了π0.5-base,这是一个开源的通用机器人操作基础模型。
实验比较了三种利用WVM价值评分的方法。第一种是二值过滤:只保留那些价值分数在一个动作片段结束时比开始时更高的数据块,直接丢弃"进展为负"的片段。第二种是百分位过滤:保留价值进展排名前70%的数据块,后30%全部舍弃。第三种是优势加权回归(AWR):不直接丢弃数据,而是根据价值进展给每个数据块打一个权重,进展越大权重越高,模型学习时会自动多关注这些片段。
三种方法均以朴素的行为克隆(BC)为基线,结果显示在仿真任务中,利用WVM的三种策略平均成功率都明显高于基线;在真实机器人任务中,提升幅度更为显著。这直接证明了WVM的价值评分确实抓住了"有效进展"的本质,而不是在打无意义的分数。
九、消融实验:拆解WVM,哪个环节最关键?
为了搞清楚WVM设计中每个环节的贡献,研究团队进行了系统的消融实验——也就是每次去掉一个组件,看性能如何变化。
关于视频联合训练的作用,实验表明:如果完全去掉视频生成的训练目标,只让价值流水线借用视频DiT的特征,犹豫检测的RMSE会从0.05升到0.08,重试检测的VOC会从0.78跌到0.68。如果把视频DiT从零开始随机初始化训练,重试VOC进一步跌到0.62。最极端的情况是把视频DiT完全冻结不更新,此时性能最差:犹豫RMSE飙到0.12,重试VOC跌到0.45。这组数字非常清晰地说明了一件事:WVM的强大不仅仅来自"借用了视频模型的参数",更来自"视频模型和价值模型在训练中持续地共同进化"。视频理解能力和价值估计能力是相互滋养的关系,缺一不可。
关于前缀随机化比率的选择,实验测试了完全不随机化(p=0)、完全随机化(p=1)和WVM默认的p=0.5三种情况。完全不随机化时,Expert-VOC确实达到了0.98的高分,但犹豫RMSE和重试VOC都明显变差——这正是"投机取巧"的表现,模型只是在复制前缀分数而非真正看画面。完全随机化时,重试检测有所恢复,但Expert-VOC下滑到0.91,说明连续性被破坏了。只有p=0.5在各个指标上达到最均衡的表现。
关于价值输出头的设计,实验对比了WVM的流动匹配输出头与另一种常见方案HL-Gaussian(把分数离散化成51个格子,预测落在哪个格子的概率)。结果显示,HL-Gaussian在重试检测的VOC上明显更低,原因正如研究团队分析的:固定的格子结构保留了整体均值,但抹平了相邻帧之间细微的分数差异,而恰恰是这些细微差异决定了排序的正确性。
十、局限与展望:这条路还长
研究团队在文中也坦诚地指出了WVM当前的局限。由于算力限制,训练数据的规模相对有限,因此WVM面对完全陌生的任务和场景时,泛化能力还不够强。另外,Suboptimal-Value-Bench目前主要聚焦于抓取和放置类任务,对于更精细的操作(比如拧螺丝、穿线、折叠布料)和需要长时间规划的复杂任务,测试集的覆盖还很不足。
从更宏观的角度来看,这项研究打开了一个有趣的思路方向:世界模型不只是用来"想象未来"的工具,它对时间和空间的深度理解,可以被挪用来解决机器人学习中的各种评估难题。随着视频生成模型越来越强、训练数据越来越多,建立在世界模型之上的价值估计框架,很可能成为未来机器人大规模学习的重要基础设施。
说到底,这项研究解决的问题可以用很生活化的语言来概括:它让机器人学会了区分"我在认真干活"和"我在原地磨蹭或者走了弯路",进而让机器人在学习时能更有选择性地向好的示范取经。这个能力听起来很基础,但它恰恰是机器人从一个"鹦鹉学舌的模仿者"走向"真正理解任务的执行者"的关键一步。至于这条路还有多远,也许值得每一个关注机器人未来的人继续思考。
Q&A
Q1:世界价值模型(WVM)和普通的视觉语言模型在评估机器人任务进展上有什么本质区别?
A:普通视觉语言模型(VLM)是在静态图片或时间稀疏的截图上训练的,它缺乏对时间动态的真正理解,面对机器人操作视频时,无法感知"爪子向前伸了三帧又缩回来"这类时序变化的含义。而WVM建立在视频世界模型之上,这类模型天生就是在预测时间序列变化中训练出来的,能够理解当前状态是如何从历史演变而来、未来又会走向哪里。因此WVM在判断任务进展方面,尤其是识别"停滞"和"倒退"这类次优行为时,远比VLM系方法更准确。
Q2:Suboptimal-Value-Bench是什么?它和现有的机器人评测基准有何不同?
A:Suboptimal-Value-Bench是这项研究发布的一个新评测基准,包含800条由人工精确标注帧级进展曲线的机器人操作轨迹,覆盖三种机器人平台和15个任务,总时长超过213分钟。它的核心特点是专门针对两种次优行为(犹豫和重试)设计了专项评测指标。现有的主流评测基准几乎只在成功、流畅的专家示范上测试价值模型,无法反映模型处理现实中大量"不完美"数据的能力,而Suboptimal-Value-Bench填补了这一空白。
Q3:前缀随机化技术在WVM训练中具体解决了什么问题?
A:WVM在推断时用滑动窗口处理视频,相邻窗口之间会共享前缀评分以保持连续性。但这种机制会让模型养成"偷懒"的习惯:直接复制前缀分数往后推,而不去认真观察画面内容。前缀随机化在训练时以50%的概率将前缀替换成一个随机数,强迫模型每次都必须依赖视觉信息来给出评分,防止这种"走捷径"的行为。实验表明,不加这个机制时,模型在成功示范的测试上分数虚高,但在次优行为检测上表现明显变差,暴露了它只是在搬运前缀而非真正理解画面。
热门跟贴