π0——用于通用机器人控制的VLA模型：一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)|动作|向量|机器人|机械臂|模态|算法|预训练

第一部分整体理解π0

1.1 π0——用于通用机器人控制的流匹配VLA模型

1.1.1 背景：机器人基础模型的三大挑战——大规模预训练、架构、训练策略

在自然语言[1]和计算机视觉[39]领域，预先在多任务数据上训练的通用基础模型往往比那些专门定制的模型表现更佳

例如，如果目标是识别照片中的鸟类，那么与其仅仅在鸟类识别数据上进行训练，不如先在许多不同的图像-语言关联上进行预训练，然后针对鸟类识别任务进行微调或提示

同样地，作者会发现

对于有效的专业机器人系统，先在高度多样化的机器人数据上进行预训练，然后针对所需任务进行微调或提示更为有效。这可以解决数据稀缺性挑战，因为通用模型可以获得更多的数据来源——包括其他任务、其他机器人，甚至非机器人来源的数据
同时也可以解决鲁棒性和泛化性挑战，因为多样化的数据展示了更广泛的观察和行动覆盖，提供了更多样的场景、修正和恢复行为，这些可能在更狭窄的专业数据中不存在

然而，开发这样的通用机器人策略——即机器人基础模型——涉及许多三大挑战

首先，任何此类研究都必须在非常大规模上进行，因为大规模预训练的全部好处通常在较小规模上无法显现[54]
其次，需要开发合适的模型架构，这些架构能够有效利用多样化的数据源，同时能够表现出与复杂物理场景交互所需的复杂和微妙行为
第三，需要正确的训练策略，包括最近在NLP和计算机视觉领域的大模型进展在很大程度上依赖于精细的策略来策划预训练和后训练数据[35]

1.1.2 预训练的视觉-语言模型VLM主干 + 动作专家通过「流匹配」输出动作

24年10月底，来自Physical Intelligence公司的研究者们提出了一个原型模型和学习框架，称之为π0

作者包括Kevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn、Karol Hausman、Sergey Levine等20多人其中的Kevin Black是伯克利AI的博士生，也是该公司的研究员

Noah Brown是Google RT1和RT2的二作

Danny Driess也是 RT2的作者之一

Chelsea Finn是斯坦福ALOHA团队的指导老师，也是RT2的作者之一

Karol Hausman则是该公司CEO，曾是谷歌大脑机器人操作研究主管，2021年至今兼任斯坦福客座教授

该公司联创Sergey Levine则是UC伯克利电气工程和计算机科学系副教授，谷歌学术被引用量为超过12.7万

其对应的论文为《π0: A Vision-Language-Action Flow Model for General Robot Control》
其对应的技术blog为：physicalintelligence.company/blog/pi0但截止到24年11月中旬，π0没开源、没开放代码，且难度相对较高

而想达到这个目标，需要解决上面所说的三大挑战：大规模数据、架构、训练策略/方法，π0是如何逐一解决的呢

为了整合多样的数据源，作者

首先，利用一个预训练的视觉-语言模型(VLM)来导入互联网规模的经验。通过基于VLM构建他们的模型，继承了语言和视觉-语言模型的通用知识、语义推理和问题解决能力

其次，进一步训练他们的模型以整合机器人动作，使其成为一个视觉-语言-动作(VLA)模型。为了能够利用多种不同的机器人数据源，作者采用跨化身训练[10]，将多种机器人类型的数据合并到同一个模型中这些不同的机器人类型具有不同的配置空间和动作表示，包括单臂和双臂系统，以及移动操纵器

其实这点和上一篇文章介绍的RDT是同样的问题，详见此文《RDT——清华开源的双臂机器人扩散大模型(基于DiT改造而成)：先预训练后微调，支持语言、图像、动作多种输入》的「1.2.1节解决数据异构性问题，且兼容多个模态的输入」

在模型的架构上，为了能够执行高度灵巧和复杂的物理任务，作者使用

带有流匹配「[或叫修正流Rectified Flow，而修正流则是流匹配的一种改进，详见32-Rectified flow: A marginal preserving approach to optimal transport，至于流匹配是扩散[20-DDPM,46]的变体，详见28- Flow matching for generative modeling，以及此文《文生图中从扩散模型到流匹配的演变：从SDXL到Stable Diffusion3(含Flow Matching和Rectified Flow的详解)》的第五部分]」的动作分块架构[57-Learning fine-grained bimanual manipulation with low-cost hardware，即动作分块算法ACT，详见此文：一文通透动作分块算法ACT：斯坦福Moblie Aloha所用的动作序列预测算法(Action Chunking with Transformers)]来表示复杂的连续动作分布[28,32]

we use an action chunking architecture [57] with flow matching (a variant of diffusion) to represent complex continuous action distributions [28, 32].

说白了，相当于通过流匹配微调VLM以生成动作our model em-ploys a novel design that fine-tunes a VLM to produce actions via flow matching [32, 28], a variant of diffusion [20, 46]

这使得他们的模型能够以高达50 Hz的频率控制机器人进行如折叠衣物(见上图图1)这样的灵巧任务——每个新输出大约每半秒重新计算一次，最终一次性输出 50 个未来时间步的动作且为了将流匹配与VLM结合，他们使用了一种新颖的动作专家，它通过流式输出(flow-based outputs)增强了标准VLM总之，虽然许多模型被提议结合预训练语言模型与扩散[40,41,14]，包括专门将扩散与自回归大型语言模型混合的模型[19,29,59]

这些模型通常关注图像生成，但作者的动作生成模型与Zhou等类似[ 59-Transfusion: Predict the next token and diffuse images with one multi-modal model，一个既可以预测下一个token又可以生成图像的多模态模型(相当于训练单个模型来同时预测离散文本token和扩散连续图像)，总之，其通过在50%文本和50%图像数据上预训练一个Transformer模型来展示Transfusion，详见下文的2.1节 ]

其通过应用于单个序列元素的扩散风格（流匹配）损失训练他们的模型，以替代仅用于解码器的transformers的标准交叉熵损失Like Zhou et al. [59], we train our model via a diffusion-style (flow matching) loss applied on individual sequence elements, in lieu of the standard cross-entropy lossfor decoder-only transformers

与Liu等[29-Playground v3: Improving text-to-image alignment with deep-fusion large language models.]类似，为对应于扩散的token使用了一套独立的权重(该扩散的token即是机器人的动作)，将这些概念融入VLA模型中，作者引入了据他们所知的第一个流匹配VLA，用于生成高频动作块以实现灵巧控制

Like Liu et al. [29], we use a separate set of weights for the tokens corresponding todiffusion. Incorporating these concepts into a VLA model, we introduce what to our knowledge is the first flow matchingVLA that produces high-frequency action chunks for dexterouscontrol.

3. 在训练策略/方法上，为了灵活且稳健地执行复杂任务模型在一个非常大且多样化的语料库上进行预训练之后，之后便在更狭窄且更精心策划的数据上进行微调，以引导出所需的行为模式

总之，流匹配的工作方式和扩散模型有些类似，核心思想都是通过逐步添加噪声来简化数据分布，然后逐步去噪得到隐私数据「Google deepmind团队甚至专门有一篇文章阐述流匹配其实与扩散模型是等价的，详见：diffusionflow.github.io/」

具体而言训练时，随机对动作施加高斯噪声，并训练模型输出去噪向量场推理时，从高斯噪声开始，通过数值积分向量场生成动作序列

不同之处在于流匹配直接对数据和噪声分布之间的映射场(vector field)进行建模，训练目标是匹配这一映射场而扩散模型通常学习的是每个去噪步骤的条件分布「如还不熟悉扩散模型的，请参见此文《图像生成发展起源：从VAE、VQ-VAE、扩散模型DDPM、DETR到ViT、Swin transformer》的第二部分」

so，流匹配方法能够高精度地建模复杂多峰分布，非常适合高频灵巧操作任务

1.2 模型架构与模型推理

1.2.1 整体架构：PaliGemma + 动作专家 + 流匹配Flow matching

作者首先组装了一个预训练混合体，该混合体由他们自己的灵巧操作数据集(第V-C节)与整个OXE数据集[10-即 Open X-Embodiment，关于OXE的介绍详见此文《Google视觉机器人超级汇总：从RT、RT-2到RT-X、RT-H(含Open X-Embodiment数据集详解)》的第三部分]的加权组合组成，该数据集是在7种不同的机器人配置下为68个不同的任务收集的，而OXE数据集包含来自22个机器人的数据

预训练阶段还使用了多样的语言标签，结合了任务名称和段注释（用于子轨迹的细粒度标签，通常长度约为2秒）预训练阶段的目的是训练一个基础模型，该模型展示了广泛的能力和泛化性，但不一定专注于在任何一个任务上达到高性能。这个基础模型可以遵循语言指令并以基础水平执行多种任务
对于复杂和灵巧的任务，随后采用后训练程序，使用高质量的精心策划数据将模型调整为特定的下游任务。他们研究了使用少量到中等量数据的高效后训练，以及使用较大数据集进行复杂任务（如折叠衣物和移动操作）的高质量后训练——即微调

π0模型主要由一个语言模型transformer骨干组成。遵循标准的后期融合视觉语言模型（VLM）方法[3,11,30]，图像编码器将机器人的图像观测嵌入到与语言token相同的嵌入空间中
且进一步通过特定于机器人学的输入和输出进行增强——即本体感觉状态和机器人动作「We further augment this backbone with robotics-specific inputs and outputs — namely,proprioceptive state and robot actions.」
π0使用条件流匹配[28,32]来建模动作的连续分布。流匹配为他们的模型提供了高精度和多模态建模能力，使其特别适合高频灵巧任务
该架构灵感来自Transfusion [59]，该方法通过多个目标训练一个单一的transformer，其中与连续输出对应的token(比如机器人的动作)通过流匹配损失进行监督，而与离散输出对应的token则通过交叉熵损失进行监
Our architecture is inspired by Transfusion [59], which trains a single transformer using multiple objectives, with tokens1 corresponding to continuous outputs supervised via a flow matching loss and tokens corresponding to discrete outputs supervised via a cross-entropy loss.

在Transfusion的基础上，他们还发现，为机器人特定的(动作和状态)token使用一组单独的权重可以提高性能「Building on Transfusion, we additionally found that using a separate set of weights for the robotics-specific (action and state) tokens led to an improvement in performance. 」

1. 第一大模块用于图像和文本(比如人类指令)输入

2. 第二大模块用于机器人特定的输入(比如机器人的状态)，和输出(比如预测的机器人动作)，该第二组权重称为动作专家

相当于这两大模块各司其职，各自处理各自接收到的输入

正式地，他们希望对数据分布建模，其中

顺带强调下

当看到这个符号时，它表示的是输入噪声动作

PS，此点记住了，可以避免概念上的混淆(且如果你细心的话，你会发现本文全文中，我特意为了区别，皆是：动作输入用的绿色字体，动作输出用的红色字体)

而是一个观察，观察由多个RGB图像、语言命令和机器人的本体状态组成，因此

其中

→是第i个图像（每个机器人有2或3个图像）

→是语言token序列

是关节角度向量

相当于，对于π的基础模型 VLM，它本身并不直接输出动作。那怎么让它生成动作呢？具体而言，作者团队在VLM后面接一个专门的动作模块

1. 这个 action expert 是怎么工作的呢？

它不是直接把自己的参数塞进VLM模型中，变成一个整体大模型来输出动作而是通过"注意力机制"去关注VLM的参数——即动作专家的每一层都与VLM的所有层进行注意力交互 2. 简单来说，action expert 就是“看着” VLM的参数，根据这些信息生成具体的连续的动作——而无需像RT-2那样对其进行离散化或token化(discretize or tokenize)下一节会详细介绍这个action expert

在训练过程中，使用条件流匹配损失Conditional Flow Matching[28,32]监督这些动作token「前者为学习网络，后者为学习目标，即训练前者去逼近后者」

最近在高分辨率图像[14]和视频[38]合成方面的研究表明，当与简单的线性高斯(或最优传输）概率路径[28]结合时，流匹配可以实现强大的经验性能其由下述表达式给出

相当于先加噪，类似此文中「5.2.1 通过示意图对比：ϵ-prediction、v-prediciton与rectified flow」最后对rectified flow的阐述：

相当于从噪声分布得到动作分布

动作专家使用全双向注意力掩码，以便所有动作token彼此关注「The action expert uses a full bidirectional attention mask, so that all action tokens attendto each other」
开始，且作者使用前向欧拉积分规则「At inference time, we generate actions by integrating thelearned vector field from τ = 0 to τ = 1, starting with randomnoise A0t ∼N(0, I). We use the forward Euler integrationrule:」

他们在附录D中提供了有关推理过程的更多细节，包括模型每个部分的推理时间。虽然原则上他们的模型可以从头初始化或从任何VLM骨干微调，但实际上他们使用PaliGemma [5-PaliGemma: A versatile 3B VLM for transfer]作为他们的基础模型

PaliGemma是一个开源的30亿参数VLM，提供了大小和性能之间的便利折衷。作者为动作专家添加了3亿参数（从头初始化），总共达到33亿参数「关于PaliGemma的详细介绍，请参见此文：多模态PaliGemma(含1代和2代)：Google推出的基于SigLIP和Gemma的视觉语言模型(含SigLIP详解)」除了他们的主要VLA模型外，他们还训练了一个类似的基线模型——π0-small，该模型在消融实验中没有使用VLM初始化

作者称之为π0-small的这个模型拥有470M参数，没有使用VLM初始化，并且在没有使用VLM初始化的数据训练中，作者发现了一些有助于训练的小差异，这些差异在原论文的附录C中进行了总结

1.2.2 改造VLM模型PaliGemma——后接action expert，使其成为VLA模型

但有以下不同：

增加了一个用于结合流匹配时间步的MLP信息
以及动作专家的一组较小的权重

1. 附加输入和输出

标准的PaliGemma架构接收一系列图像，随后是语言指令

但作者附加了输入和输出，即

—相当于输出动作块的向量场表示

The final set of input tokens correspond to the noisy action chunk Aτt = [aτt , ..., aτt+H−1], with the number of tokens equal to the action horizon (H = 50 for our tasks). We only use the transformer outputs corresponding to the H noisy actions,which are decoded into vθ (Aτt , ot) using a linear projection.

2. 多层感知机MLP整合流匹配时间步

d是动作维度，w是动作专家的嵌入维度（或宽度）

3. 注意力掩码

在每个块内，存在全双向注意力，而每个块中的token不能关注未来块中的token

→第一块包含PaliGemma的VLM预训练中的输入模态，这些模态被防止关注未来块（包含新输入）以最小化预训练带来的分布偏移「The first block includes the input modalities from PaliGemma’s VLM pre-training, which are prevented from attending to future blocks (which include new inputs) to minimize distribution shift from said pre-training」

→最后一块对应于噪声动作，可以关注整个输入序列「即The final block corresponds to the noisy actions Aτ t , which can attend to the full input sequence」

4. 动作专家「其训练目标用的flow matching」

π0实现为一个单一的transformer，其具有两组权重(也称为专家[45])，每个token被路由到其中一个专家；权重仅通过transformer的自注意力层相互作用

PaliGemma基于Gemma 2B[49]语言模型，使用多查询注意力[44，关于多查询注意力的介绍详见此文：一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA的第三部分]，和配置{width=2048,depth=18,mlpdim=16,384,num heads=18, num kvheads=1,head dim=256} 由于专家仅在自注意力层中相互作用，width和mlp dim不必在专家之间匹配

另，为了加快推理速度（需要动作专家的多次前向传递），他们将动作专家缩小为{width=1024, mlp dim=4096}，参数数量约为∼300M

5. 采样流匹配时间步

原始流匹配论文[28,32]从均匀分布中采样流匹配时间步：。Esser等人[14]则建议从对数正态分布中采样

作者认为，在高时间步（低噪声水平）时，模型只需学习恒等函数，而在低时间步（高噪声水平）时，模型只需学习数据分布的均值

然而，假设动作预测任务与高分辨率图像合成有细微的不同——虽然在文本标签的条件下预测均值图像可能相对容易，但在机器人观测条件下预测均值动作（即，学习）则是个更难的问题；这是因为观测非常具有信息性，它应该比文本标签对可能动作的分布施加更大的约束

因此，作者设计了一个时间步采样分布，强调低时间步（高噪声水平）；此外，超过给定阈值s的时间步根本不被采样，因为只要积分步长δ大于1−s，它们就不需要

1.2.3 推理

这些操作是在NVIDIA GeForce RTX 4090消费级GPU上计时的。对于移动机器人，推理是在Wi-Fi连接上进行的，增加了一小部分网络延迟。当然了，如果做进一步的优化、量化和其他改进可能会进一步减少推理时间。

由于模型一次生成整个 H步动作块，作者可以在需要再次运行推理之前执行最多 H个动作。然而，实际可能会比这更频繁地进行推理，并且可以使用各种聚合策略结合来自不同推理调用的动作

作者在早期尝试了ACT算法中的时间集成[57- Learning fine-grained bimanual manipulation with

low-cost hardware，对于这点，我july的个人理解是时间集成是ACT策略中的其中一个选项，故用ACT的过程中，可以不用时间集成这个特征，是不影响对ACT的使用的]，发现它对策略性能有害，因此作者选择不聚合动作，而是执行开放循环的动作块

对于20Hz的UR5e和Franka机器人，作者每0.8秒进行一次推理（在执行16个动作后）
而对于所有其他以50Hz运行的机器人，作者每0.5秒进行一次推理（在执行25个动作后）

1.3 数据收集和训练方案

就像大型语言模型LLM的训练通常分为预训练和后训练阶段一样，作者对他们的模型也采用多阶段训练程序

预训练阶段的目标是让模型接触到各种各样的任务，以便它能够获得广泛适用和一般的物理能力，而后训练阶段的目标是使模型能够熟练和流畅地执行所需的下游任务
因此，预训练和后训练数据集的要求是不同的：预训练数据集应涵盖尽可能多的任务，并在每个任务中涵盖多样化的行为后训练数据集则应涵盖有助于有效任务执行的行为，这些行为应表现出一致且流畅的策略。直观地说，多样化(但质量较低)的预训练数据允许模型从错误中恢复并处理高度变化的情况，这些情况可能在高质量的后训练数据中不会出现，而后训练数据教会模型良好地执行任务

1.3.1 先基于机器人数据(开源 + 自采)预训练，之后实际任务中微调

该预训练混合物由OXE[10-即 Open X-Embodiment]的一个子集和π数据集组成其中，OXE的这个子集，称之为OXE Magic Soup[24-Openvla:An open-source vision-language-action model，关于Openvla详见此文《视觉语言动作模型VLA的持续升级：从π0之参考基线Octo、OpenVLA到CogACT》的第二部分]
上图右侧展示了预训练混合物中不同数据集的权重，左侧展示了通过步数衡量的相对大小

训练混合中有9.1%由开源数据集组成，包括22个机器人数据的OXE [10]、Bridgev2 [52-BridgeData v2: A dataset for robot learning at scale] 和 DROID [23-DROID: A large-scale in-the-wild robot manipulation dataset]
这些数据集中的机器人和任务通常配备一到两个摄像头，并使用低频控制，频率在2到10 Hz之间。然而，这些数据集涵盖了广泛的物体和环境
为了学习灵巧且更复杂的任务，作者还使用了来自他们自有的数据集——903M时间步长的数据，其中106M步来自单臂机器人，797M步来自双臂机器人
这些数据涵盖了68个任务，每个任务由复杂的行为组成——例如，“清理”任务涉及将各种不同的盘子、杯子和餐具放入清理箱，以及将各种垃圾物品放入垃圾桶
请注意，这种任务的定义与之前的工作显著不同，之前的工作通常使用任何名词和动词的组合(例如，“拾起杯子”与“拾起盘子”)来构成一个独立的任务
因此，作者数据集中行为的实际范围比这些“任务”数量所暗示的要广泛得多下文的“1.3.3 可操作的机器人系统：涉及7种机械臂和68个任务”更详细地讨论他们数据集中的具体机器人和任务(对应原论文V-C节)

配置向量和动作向量始终具有数据集中最大机器人的维度大小(在作者的案例中为18，以适应两个6-DoF机械臂、两个夹持器、一个移动底座和一个垂直驱动的躯干)
对于配置和动作空间维度较低的机器人，对配置和动作向量进行零填充。对于少于三张图像的机器人，还会屏蔽掉缺失的图像槽
在训练后阶段，使用一个较小的任务特定数据集对模型进行微调，以使其专门化用于特定的下游应用如前所述，对“任务”的定义相当广泛——例如，“收拾”任务需要操作多种不同的物体。不同的任务需要非常不同的数据集，最简单的任务只需5小时，而最复杂的任务需要100小时或更多的数据

1.3.2 语言和高级策略

更复杂的任务需要语义推理和高级策略，例如清理桌子，也可以通过将高级任务（如“清理桌子”）分解为更直接的子任务（如“拿起餐巾”或“将餐巾扔进垃圾桶”）的高级策略来受益

由于作者的模型经过训练可以处理语言输入，故可以使用高级视觉语言模型（VLM）来进行这些语义推理，这种方法类似于LLM/VLM的规划方法，例如SayCan [2]。通过使用这种高级策略来辅助他们的模型在多个实验任务中制定高级策略，正如将在第六节中讨论的那样

1.3.3 可操作的机器人系统：涉及7种机械臂和68个任务

UR5e
一个配备平行爪夹持器的手臂，带有一个腕部安装和一个肩上摄像头，总共提供两张相机图像和一个7维的配置和动作空间
双臂UR5e
两个UR5e设置，总共提供三张相机图像和一个14维的配置和动作空间
Franka
Franka设置有两个摄像头和一个8维的配置和动作空间
双臂Trossen
此设置有两个基于ALOHA设置[4,57]的6自由度Trossen ViperX手臂，配有两个腕部摄像头和一个基座摄像头，以及一个14维的配置和动作空间
双臂ARX(有意思的是这款机械臂来自中国机器人制造厂商方舟无限 )，和双臂AgileX
此设置使用两个6自由度手臂，支持ARX或AgileX手臂，配有三个摄像头（两个腕部和一个基座），以及一个14维的配置和动作空间。此类别涵盖两个不同的平台，但由于它们的运动学特性相似，故将它们归为一类
移动Trossen和移动ARX
此设置基于移动ALOHA[57]平台，具有两个安装在移动基座上的6自由度手臂，可以是ARX手臂或Trossen ViperX手臂。非全向基座增加了两个动作维度，形成一个14维的配置和16维的动作空间。有两个腕部摄像头和一个基座摄像头。此类别涵盖两个不同的平台，但由于它们的运动学特性相似，故将它们归为一类
移动Fibocom
两个安装在全向基座上的6自由度ARX手臂。基座增加三个动作维度（两个用于平移，一个用于方向），形成一个14维的配置和17维的动作空间。在上上图-图4中总结了他们数据集中每个机器人的比例

1.4 实验效果及验证

1.4.1 对基础模型的评估

为了做一系列验证对比，作者

与OpenVLA[24]进行比较，这是一个最初在OXE数据集[10]上训练的7B参数VLA模型。作者在完整混合物上训练OpenVLA
这对于OpenVLA来说是一个非常困难的混合物，因为它不支持动作分块或高频控制
此外，还与Octo [50-详见此文《从Octo、OpenVLA到CogACT、TinyVLA——视觉语言动作模型VLA的持续升级(RT-2和π0在其他文章介绍)》]进行比较，这是一个较小的93M参数模型。虽然Octo不是VLA，但它确实使用扩散过程生成动作，为作者的流匹配VLA提供了一个有价值的比较点
作者还在与他们模型相同的混合物上训练Octo。但由于时间限制，作者无法为OpenVLA和Octo训练与他们完整模型相同的周期数
因此，作者还与“计算平价”版本的模型进行比较，该版本仅训练160k步（而作者的主模型训练了700k步），这相当于或低于为基线提供的步骤数量（OpenVLA为160k，Octo为320k）
还包括一个仅在UR5e数据上微调的OpenVLA模型版本，不进行跨化身训练，希望在UR5e任务上提供更强的基线
最后，作者还包括与上文描述过的π0-small模型的比较，该模型可以视为作者模型的缩小版，没有进行VLM预训练。评估指标使用在每个任务和方法的10个回合中平均的标准化得分，其中一次回合在完全成功时得分为1.0，部分成功时得分为小数例如，搬运的得分是正确放置在适当容器中的物体的比例，且在附录E中描述了评分标准

π0在所有零样本任务上取得了迄今为止最好的结果，在衬衫折叠和较简单的搬运任务上接近完美的成功率，并且相对于所有基线有很大改善且经过160k步训练的“parity”版本的π0仍然优于所有基线甚至π0-small也优于OpenVLA和Octo
OpenVLA在这些任务上表现不佳，因为其自回归离散化架构不支持动作块且仅限UR5e的OpenVLA模型表现较好，但仍远低于π0的性能
Octo确实支持动作块，但其表示能力相对有限

此比较说明了结合大型、具有表现力的架构与通过流匹配或扩散来建模复杂分布的能力的重要性。此外，与π0-small的比较说明了结合VLM预训练的重要性。不幸的是，最后的比较很难做到公平：π0-small使用的参数更少，但较大的模型在没有预训练的情况下难以使用

总体而言，这些实验表明π0提供了一个强大的预训练模型，能够有效地执行各种机器人任务，性能远优于先前的模型

1.4.2 学习新的灵巧任务

UR5e 堆叠碗。这个任务需要堆叠碗，使用四个不同尺寸的碗。由于这个任务需要像预训练数据中的收碗任务一样抓取和移动碗，因此将其归入“简单”层级训练数据包含各种碗的使用，评估中混合使用已见和未见的碗
毛巾折叠。此任务需要折叠毛巾。由于这与衬衫折叠相似，而衬衫折叠在预训练中存在，因此将其归为“简单”级别
微波炉中的塑料容器。此任务需要打开微波炉，将塑料容器放入其中并关闭。容器有不同的形状和颜色，评估中混合使用已见和未见的容器。容器的操作类似于预训练数据，但微波炉在预训练中未出现
纸巾更换。此任务需要从支架上取下旧的纸巾纸管，并用新的纸巾卷替换。由于在预训练中未找到此类物品，可以认为这属于“困难”级别
Franka机器人在抽屉中的物品。此任务需要打开抽屉，将物品放入抽屉中并关闭。由于在预训练中没有类似的Franka机器人任务，故也认为这属于“困难”级别

作者在微调后将他们的模型与OpenVLA[24]和Octo [50]进行比较，它们也采用了预训练和微调的方法

由于作者的目标是评估特定模型（而非架构），故使用这些模型的公开可用的预训练检查点，这些检查点是在OXE [10]上训练的，然后对每个任务进行微调

此外，作者还与纯粹的ACT[57]和Diffusion Policy [9，关于什么是扩散策略，详见此文：Diffusion Policy——斯坦福机器人UMI所用的扩散策略：从原理到其编码实现]进行比较，这些方法专门为从较小的数据集中学习灵活任务而设计 ACT和Diffusion Policy仅在微调数据集上进行训练，这些数据集的大小与ACT和Diffusion Policy实验中使用的各个数据集相似
作者通过从他们的预训练基础模型进行微调以及从头开始训练来评估π0。此比较旨在评估π0架构和他们的预训练过程的单独优势
作者假设具有VLM初始化的π0架构应该已经为各个任务提供了更强的起点，而预训练过程应该进一步提高其性能，尤其是在较小的微调数据集上

作者在叠碗和微波炉中的塑料容器任务上包含了所有基线。由于OpenVLA和Octo的性能显著较差，他们仅在其中一个数据集大小上运行这些模型，因为在现实世界中评估如此多模型的时间成本很高。结果显示，π0通常优于其他方法

有趣的是，最强的先前模型是那些完全从头开始在目标任务上训练的模型，这表明在这些领域利用预训练对先前方法来说是一个重大挑战。虽然在塑料容器任务上π0的5小时策略表现与基线相似，但1小时版本明显更好。正如预期的那样，对于与预训练数据更相似的任务，预训练带来了更大的改进，尽管预训练模型通常优于非预训练模型，有时甚至高达

‍‍

限于篇幅，本篇仅更第一部分，其余部分目录如下：

第二部分 (选读) 详解Transfusion和Playground v3

2.1 Transfusion:既可以预测下一个token,又可以扩散图像

2.1.1 Transfusion的提出

2.1.2扩散与潜在图像表示

2.1.3 Transfusion的数据表示、模型架构、训

练目标

2.2 Playground v3

第三部分 (选读) π之外，流匹配与修正流Rectified Flow在机器人领域的其他应用

3.1用于多支撑操控的流匹配模仿学习

3.1.1Flow Matching Imitation Learningfor Multi-Support Manipulation