机器人的"眼界"决定它的能力上限|世界模型|实验|序列|机器人|眼界|轨迹|随机化

这项由字节跳动Seed实验室、北京大学与清华大学联合开展的研究发表于2026年6月，论文编号为arXiv:2606.24742，感兴趣的读者可通过该编号查询完整论文。

现代机器人技术正在经历一场安静却深刻的变革。科研人员不再只关心机器人能不能完成任务，而是开始追问：机器人在完成任务的过程中，自己到底有没有"看懂"自己在干什么？这个问题乍听之下有些哲学味道，但背后藏着一个非常实际的工程难题——当机器人从大量混杂质量的操作视频中学习时，它怎么知道哪段视频值得学、哪段视频不值得学？

这支联合团队提出了一个叫做"世界价值模型"（World Value Model，以下简称WVM）的新框架，以及一个全新的评测基准——"次优价值测试集"（Suboptimal-Value-Bench）。这项研究的核心思路，用一句话来概括就是：与其用"读图识字"的模型来判断机器人任务完成了多少，不如用真正懂视频、懂时间流动的模型来做这件事。

一、机器人学习的隐藏难题：谁来告诉它哪段录像该学？

想一下你刚开始学做菜的场景。你找来一堆菜谱视频，有的是大厨示范的精准操作，有的是家庭主妇边聊天边拖拉的随意记录，还有一些是拍了一半放弃的失败案例。如果你不加区分地照单全收，可能学了一堆坏习惯。机器人面临的处境完全一样。

机器人研究领域现在流行的做法是：从海量的人类操作视频中让机器人学习动作策略。这些视频来自各处，质量参差不齐——有专业操作员流畅完成任务的"模范"示范，也有操作中途卡壳、犹豫、失败后重来的"次优"片段。如果机器人把所有视频都当成同等重要的课本去学，它会把那些"错误示范"里的迟疑、失误都当成正常操作记下来。这直接导致它学出来的动作策略既低效又不稳定。

解决这个问题的关键，就是一个能判断"当前这帧视频里，任务完成了多少比例"的工具——也就是所谓的价值模型（Value Model）。价值模型的任务是给每一帧视频打一个0到1之间的分数：0表示任务刚开始，1表示任务已经完成。有了这个分数，机器人就可以优先学习那些稳定向前推进的片段，忽略或者降低那些停滞、倒退的片段的权重。

二、现有方法的三道坎：为什么"读图识字"不够用？

现有的价值模型大多是在一类叫做"视觉语言模型"（VLM）的技术基础上搭建的。VLM是什么？你可以把它理解成一个"看图说话"的AI——它擅长看一张图，然后回答"这张图里有什么"、"任务完成了吗"这类问题。GPT-4V、Qwen-VL等都是这类模型的代表。

但问题就出在这里。"看图说话"的模型有一个天然的局限：它的训练素材大多是独立的图片，或者是时间上很稀疏的截图序列。换句话说，它并不真正理解"时间流动"这件事。

研究团队指出现有方法被三道坎挡住了。第一道坎是"监督信号太稀"——现有方法通常只用一个单一的数字来督导模型学习，比如"这段任务完成了0.7"，这个信号非常贫乏，模型很难从中学到细腻的进展规律。第二道坎是"只会做一道菜"——很多现有的价值模型是专门为某一个具体任务设计的，比如专门评估"把杯子放进箱子"这个动作，换一个任务就完全失效，根本无法作为通用工具使用。第三道坎是最根本的：这些建立在VLM上的模型缺乏对时间动态的感知能力。它不理解"机器人爪子向前伸了三帧又缩回来"意味着什么，它只能看到每一帧的静态画面。

三、世界模型：天生懂"时间"的大脑

与VLM形成对比的，是另一类近年来迅速崛起的技术——世界模型（World Model）。世界模型的核心能力是预测：给它看一段视频的前半段，它能推测接下来会发生什么。Sora、Wan等视频生成模型背后的技术，本质上就属于这个范畴。

世界模型天生就是在处理"时间序列"这件事上打磨出来的。它不是在看一张张独立的图片，而是在理解事物如何随时间变化、一个动作会导致什么后果、现在的状态预示着未来的走向。这正是判断任务进展所需要的能力。

研究团队的核心洞见是：既然世界模型已经掌握了理解时间动态的能力，何不直接把它的"大脑"借来，用于判断任务价值？这就是WVM的起点。

四、WVM的设计：给世界模型装上一个"进度条"

WVM在技术上的构建方式，可以用一个工厂生产线的比喻来理解。工厂里原本有一条成熟的视频处理流水线（这是世界模型部分），现在研究团队在这条流水线旁边增设了一条专门生产"进度评分"的副线（这是价值模型部分），两条线并行运作，但副线可以随时从主线上获取信息。

具体来说，WVM的基础是Wan2.2这个开源视频生成模型。对于任意一段机器人操作视频，WVM首先截取一个时间窗口：一帧"前缀帧"（提供背景参考）、h帧当前观测画面，以及h帧未来预测画面，三者合成一个时间胶囊，送入视频变分自编码器（Video VAE）压缩成紧凑的隐空间表示。这个过程相当于把视频"浓缩"成一段富含时空信息的特征代码。

在这份代码之上，视频DiT（扩散变换器）负责处理原本的视频生成任务，而与之并行的价值DiT则专门负责生成价值评分序列。两条流水线通过一种叫做"混合变换器"（Mixture-of-Transformers，MoT）的机制紧密耦合：价值流水线可以直接"旁听"视频流水线产生的中间特征，但视频流水线对价值流水线的存在完全无感知。这种单向信息传递的设计非常精妙——价值流水线充分吸收了视频理解的精华，同时又不干扰视频生成任务本身，确保世界模型的时空理解能力不会因为"兼职"而退化。

价值DiT的输出不是一个单一的数字，而是一组连续的价值分数序列——也就是一个"进度曲线块"。用流动匹配（Flow Matching）这种技术来训练模型生成这条曲线，相当于给模型提供了一种连续、细腻的监督方式，远比只给一个"0.7分"更能引导模型学到进展的细节。

五、训练中的两个小技巧：防止作弊，学会倒退

有了这个双流架构，研究团队还引入了两个非常有针对性的训练增强手段，来解决实际中遇到的具体问题。

第一个是"前缀随机化"。在推断阶段，WVM会用滑动窗口的方式处理一段长视频：每次处理一个时间块，相邻时间块之间有重叠，前一个块的末尾评分会作为下一个块的"前缀"输入，帮助保持评分的连续性。这本是好事，但研究团队发现这里潜藏着一个风险：模型可能会养成"懒惰"的习惯，只是把前缀的分数往前搬，而不真正去看画面里发生了什么。为了防止这种投机取巧，他们在训练时随机地用一个0到1之间的随机数来替换正确的前缀值，强迫模型每次都不得不认真观察画面内容来给出评分。

第二个是"视频倒放增强"。机器人的训练数据绝大多数来自成功完成任务的示范，这意味着价值分数几乎总是单调递增的——任务越来越接近完成。但现实中，机器人经常出现"倒退"情况，比如抓件失败后手臂缩回去重试。这种情况下价值分数理应下降，但模型从来没见过这种模式怎么办？研究团队借鉴了"ReWiND"方法，在训练时人为构造下降和平稳的进度曲线：对某个时间窗口内的帧进行倒序排列，就模拟出了"退步"的场景；对同一帧重复播放，就模拟出了"停滞"的场景。配合重新标注的价值标签，模型得以见识到进展曲线的全部形态。

六、次优价值测试集：给"不完美表现"打分的新考场

在介绍WVM的性能之前，有必要先解释一下这项研究的另一个重要贡献——Suboptimal-Value-Bench的由来和设计。

现有的价值模型评测体系有一个明显的盲区：它们几乎只在"成功的、流畅的"演示视频上评测。这就好像只在晴天考驾照，从不在雨天或堵车情况下测试一样，通过了也不代表真的会开车。现实中的机器人数据充满了"次优"片段——操作员有时会停下来想一想，有时会因为抓取失败而把手臂缩回来重试。一个真正好用的价值模型，必须能准确识别这些"问题片段"。

研究团队为此构建了一个包含800条人工标注轨迹的测试集，覆盖三种机器人平台（AgileX双臂机器人、ARX双臂机器人、RoboSuite仿真单臂机器人）和15个操作任务，总时长超过213分钟。每条轨迹都经过人工精确标注了帧级别的"真实价值曲线"。

测试集重点关注两种典型的次优行为模式。一种是"犹豫"——机器人爪子停在目标物体上方，既没往前抓也没缩回去，原地僵持了几秒。这段时间里任务根本没有进展，价值分数应该保持平稳不变。评测这种情况用的是RMSE误差指标，即预测分数与真实恒定分数之间的差距，差距越小说明模型越不会在本该稳定的时候乱飘。另一种是"重试"——机器人尝试抓取失败，手臂后退，任务进展实际上在倒退。评测这种情况用的是VOC相关性指标，重点看模型的预测曲线和真实的下降曲线是否一致走向，方向对了才算及格。

为了生成这800条标注数据，研究团队采用了一套两阶段流程。先用一个大型视觉语言模型自动分析每条视频，粗略定位出"没有进展"的片段；再让人工标注员在专用的界面上精确调整边界，确保每一帧的标注都是由人类最终确认的，而不是模型一手包办的。

七、实验成绩：在三张考卷上的表现

研究团队将WVM与六个竞争方法进行了系统对比，这六个方法分别是：GVL、VLAC、Robometer、TopReward、RoboReward和Robo-Dopamine，均是当前机器人价值估计领域的代表性工作。

在"犹豫检测"这张考卷上，WVM的平均RMSE错误率只有0.05，而同样表现不错的GVL和Robometer的错误率是0.14，是WVM的将近三倍。这意味着当机器人在原地踏步时，WVM能稳稳地维持评分不乱跳，而其他方法的评分会因为"不知道该给多少分"而上下抖动。

在"重试检测"这张考卷上，WVM的平均Retry-VOC得分是0.78，而最强基线GVL只有0.62，其他方法有的得了负分——意味着它们的预测方向完全反了，任务进展在下降时它们反而给出了上升的评分。这个差距非常直观地说明了WVM在理解"倒退"这件事上的显著优势。

在面向成功示范的传统Expert-VOC测试上，WVM的平均得分是0.95，高于最强基线的0.88，在六个数据集中拿下了五个第一，在自行收集的三个机器人平台数据上更是逼近满分的0.99。唯一的例外是EgoDex数据集，另一个基线RoboReward略高（0.95对0.92）。研究团队对此做了有趣的分析：这恰恰说明传统的Expert-VOC指标本身存在局限性，某种程度上奖励了那些"依赖前缀数值外推"的投机策略，而不是真正理解视频内容的模型。

八、机器人真的开窍了？下游策略提升实验

价值模型的终极意义不在于打分，而在于帮机器人从混乱的数据中淘金。研究团队在三个仿真RoboSuite任务（叠方块、把麦片放进托盘、把牛奶放进托盘）和三个真实AgileX双臂机器人任务（把老鼠放进盒子、把虾放进锅、把记号笔放进支架）上验证了WVM对机器学习策略的提升效果。

为了模拟真实场景中数据质量不佳的挑战，实验刻意只使用次优数据进行策略微调：仿真任务每个只用10条轨迹，真实任务每个只用50条轨迹。基础策略采用了π0.5-base，这是一个开源的通用机器人操作基础模型。

实验比较了三种利用WVM价值评分的方法。第一种是二值过滤：只保留那些价值分数在一个动作片段结束时比开始时更高的数据块，直接丢弃"进展为负"的片段。第二种是百分位过滤：保留价值进展排名前70%的数据块，后30%全部舍弃。第三种是优势加权回归（AWR）：不直接丢弃数据，而是根据价值进展给每个数据块打一个权重，进展越大权重越高，模型学习时会自动多关注这些片段。

三种方法均以朴素的行为克隆（BC）为基线，结果显示在仿真任务中，利用WVM的三种策略平均成功率都明显高于基线；在真实机器人任务中，提升幅度更为显著。这直接证明了WVM的价值评分确实抓住了"有效进展"的本质，而不是在打无意义的分数。

九、消融实验：拆解WVM，哪个环节最关键？

为了搞清楚WVM设计中每个环节的贡献，研究团队进行了系统的消融实验——也就是每次去掉一个组件，看性能如何变化。

关于视频联合训练的作用，实验表明：如果完全去掉视频生成的训练目标，只让价值流水线借用视频DiT的特征，犹豫检测的RMSE会从0.05升到0.08，重试检测的VOC会从0.78跌到0.68。如果把视频DiT从零开始随机初始化训练，重试VOC进一步跌到0.62。最极端的情况是把视频DiT完全冻结不更新，此时性能最差：犹豫RMSE飙到0.12，重试VOC跌到0.45。这组数字非常清晰地说明了一件事：WVM的强大不仅仅来自"借用了视频模型的参数"，更来自"视频模型和价值模型在训练中持续地共同进化"。视频理解能力和价值估计能力是相互滋养的关系，缺一不可。

关于前缀随机化比率的选择，实验测试了完全不随机化（p=0）、完全随机化（p=1）和WVM默认的p=0.5三种情况。完全不随机化时，Expert-VOC确实达到了0.98的高分，但犹豫RMSE和重试VOC都明显变差——这正是"投机取巧"的表现，模型只是在复制前缀分数而非真正看画面。完全随机化时，重试检测有所恢复，但Expert-VOC下滑到0.91，说明连续性被破坏了。只有p=0.5在各个指标上达到最均衡的表现。

关于价值输出头的设计，实验对比了WVM的流动匹配输出头与另一种常见方案HL-Gaussian（把分数离散化成51个格子，预测落在哪个格子的概率）。结果显示，HL-Gaussian在重试检测的VOC上明显更低，原因正如研究团队分析的：固定的格子结构保留了整体均值，但抹平了相邻帧之间细微的分数差异，而恰恰是这些细微差异决定了排序的正确性。

十、局限与展望：这条路还长

研究团队在文中也坦诚地指出了WVM当前的局限。由于算力限制，训练数据的规模相对有限，因此WVM面对完全陌生的任务和场景时，泛化能力还不够强。另外，Suboptimal-Value-Bench目前主要聚焦于抓取和放置类任务，对于更精细的操作（比如拧螺丝、穿线、折叠布料）和需要长时间规划的复杂任务，测试集的覆盖还很不足。

从更宏观的角度来看，这项研究打开了一个有趣的思路方向：世界模型不只是用来"想象未来"的工具，它对时间和空间的深度理解，可以被挪用来解决机器人学习中的各种评估难题。随着视频生成模型越来越强、训练数据越来越多，建立在世界模型之上的价值估计框架，很可能成为未来机器人大规模学习的重要基础设施。

说到底，这项研究解决的问题可以用很生活化的语言来概括：它让机器人学会了区分"我在认真干活"和"我在原地磨蹭或者走了弯路"，进而让机器人在学习时能更有选择性地向好的示范取经。这个能力听起来很基础，但它恰恰是机器人从一个"鹦鹉学舌的模仿者"走向"真正理解任务的执行者"的关键一步。至于这条路还有多远，也许值得每一个关注机器人未来的人继续思考。

Q&A

Q1：世界价值模型（WVM）和普通的视觉语言模型在评估机器人任务进展上有什么本质区别？

A：普通视觉语言模型（VLM）是在静态图片或时间稀疏的截图上训练的，它缺乏对时间动态的真正理解，面对机器人操作视频时，无法感知"爪子向前伸了三帧又缩回来"这类时序变化的含义。而WVM建立在视频世界模型之上，这类模型天生就是在预测时间序列变化中训练出来的，能够理解当前状态是如何从历史演变而来、未来又会走向哪里。因此WVM在判断任务进展方面，尤其是识别"停滞"和"倒退"这类次优行为时，远比VLM系方法更准确。

Q2：Suboptimal-Value-Bench是什么？它和现有的机器人评测基准有何不同？

A：Suboptimal-Value-Bench是这项研究发布的一个新评测基准，包含800条由人工精确标注帧级进展曲线的机器人操作轨迹，覆盖三种机器人平台和15个任务，总时长超过213分钟。它的核心特点是专门针对两种次优行为（犹豫和重试）设计了专项评测指标。现有的主流评测基准几乎只在成功、流畅的专家示范上测试价值模型，无法反映模型处理现实中大量"不完美"数据的能力，而Suboptimal-Value-Bench填补了这一空白。

Q3：前缀随机化技术在WVM训练中具体解决了什么问题？

A：WVM在推断时用滑动窗口处理视频，相邻窗口之间会共享前缀评分以保持连续性。但这种机制会让模型养成"偷懒"的习惯：直接复制前缀分数往后推，而不去认真观察画面内容。前缀随机化在训练时以50%的概率将前缀替换成一个随机数，强迫模型每次都必须依赖视觉信息来给出评分，防止这种"走捷径"的行为。实验表明，不加这个机制时，模型在成功示范的测试上分数虚高，但在次优行为检测上表现明显变差，暴露了它只是在搬运前缀而非真正理解画面。