LabVLA：AI走进科学实验室，浙大x上海 AI Lab探索科学具身智能|上海市|机器人|科学实验

在 AI for Science 快速发展的今天，大模型已经能够在文献理解、科学推理与实验规划等认知层面展现出强大能力。然而，当研究真正进入科学实验室，面对烧杯、移液器、加热板与离心机等真实设备时，现有系统仍然难以将抽象实验步骤转化为稳定、可泛化的操作行为。

这一鸿沟的主要原因，并非 AI 机器人能力不足，而是科学实验本身包含大量隐性的操作知识与流程结构，这些知识难以被现有数据驱动方法有效表达与学习。因此，现有实验室自动化系统往往停留在「流程执行器」的层面，而非能够从实验知识中学习操作策略的智能系统。

浙江大学与上海人工智能实验室近日联合推出 LabVLA，旨在探索一种更具泛化能力的科学具身智能范式：将视觉 - 语言 - 动作（Vision-Language-Action, VLA）预训练引入科学实验场景，使模型能够从自然语言实验描述出发，学习跨任务、跨环境的实验操作规律，而不仅仅是执行单一固定流程。

为支撑这一目标，团队构建了知识增强的仿真数据引擎 RoboGenesis 与科学具身语料 LabEmbodied-Data，使模型能够在大规模、多变化的实验模拟环境中学习操作先验。在科学实验具身操作基准 LabUtopia 上，LabVLA 在 ID 与 OOD 设置下分别取得 71.1% / 70.0% 的平均成功率，并在 Franka 真实机器人平台上进行了真机实验验证。

论文地址：https://arxiv.org/pdf/2606.13578
项目地址：https://zjunlp.github.io/LabVLA/
模型地址：https://huggingface.co/zjunlp/LabVLA
代码地址：https://github.com/zjunlp/LabVLA

当 AI 走进科学实验室：从「会思考」到「会动手」还缺什么？

过去几年，AI for Science 的进展主要集中在认知层面。无论是蛋白质结构预测、科学文献理解，还是材料发现，模型处理的对象大多是文本、序列、图结构或数值信息。它们擅长的是「理解知识」，但并不直接面对实验室里的物理世界

为了让 AI 真正成为科学研究助手，仅仅「会思考」还不够，还需要具备「会动手」的能力。近年来，自动化实验平台或自主实验室（Self-driving Labs）在材料科学、化学合成、生物实验等领域取得了显著进展，通过机械臂、自动化仪器与智能优化算法实现实验流程的自动执行。然而，这类系统大多面向特定实验任务设计，依赖固定设备和预定义工作流，虽然能够高效完成专门场景下的大规模实验，却缺乏跨任务、跨设备和跨环境的泛化能力

与此同时，通用机器人领域的 VLA 模型在家庭、工业等场景里已经展现出不错的操作能力，但科学实验室场景具有明显不同的特点：有透明液体、精密仪器、严格流程、复杂安全约束，也有大量专业动作，例如倒液、加热、按压、转运和器皿摆放。通用机器人模型如果没有针对性训练，往往难以直接适配这样的环境。

视频链接：https://mp.weixin.qq.com/s/4_lIVYytD0cSNu1kh7NPUA

LabVLA 在 Franka 机械臂上进行科学实验

科学实验并不仅仅是动作执行问题，而是一种受科学知识约束的具身策略学习过程。LabVLA 试图打通 AI for Science 的推理能力与具身系统的操作能力之间的壁垒，使实验操作具备跨任务、跨环境的泛化能力。

RoboGenesis：把实验流程变成可规模化的数据

现有仿真数据通常缺乏科学过程约束，难以表达实验中的隐式操作逻辑。科学实验室机器人的真实数据采集面临高成本、低覆盖和强依赖等挑战：不仅需要专业设备、领域专家参与及严格的安全保障，还难以覆盖开放复杂的实验场景。

针对这一问题，团队提出知识增强的仿真数据引擎 RoboGenesis，将科学原理、实验规范与操作逻辑编码进可编程仿真环境，实现从「依赖人工示教的数据采集」向「依托科学知识的自动化经验生成」转变。RoboGenesis 旨在搭建一座连接科学知识与机器人行为的桥梁，使实验知识能够沉淀为可执行、可复用、可迁移的具身经验，为科学具身智能的发展提供新的数据范式。

知识增强科学具身数据合成

RoboGenesis 的思路可以概括为三步。

第一步是实验空间构建。系统先根据文本描述生成参考图像，再借助三维重建与物理标注，自动生成可用于训练的实验室场景资产，并批量组合成不同实验环境。

第二步是实验工作流生成。面对一条自然语言指令，例如「将液体从烧杯 A 转移到烧杯 B 并加热」，系统会先将其拆解为多个原子技能，再在不同机器人平台上实例化执行，同时对场景、相机、光照、杂物、物体与空间关系进行随机化，提升模型的泛化能力。

第三步是结构化经验沉淀。团队对生成轨迹进行一致性验证与执行筛选，以保证数据质量，并为其附带任务步骤、物体状态、相机参数、空间关系等多类标注，形成LabEmbodied-Data。这意味着，实验流程不再只是「演示视频」，而是可以直接用于模型训练的高质量监督信号。

从方法上看，RoboGenesis 的意义不只是「造数据」，而是尝试把实验室中原本隐性的操作经验，转化为可复用、可扩展、可迁移的结构化训练资源。

LabVLA：构建从视觉理解到动作生成的统一科学实验操作模型

在模型设计上，LabVLA 采用了开源大模型作为视觉语言骨干，并搭配一个动作专家模块，负责输出连续控制信号。训练过程分为两个阶段。

在预训练阶段，模型先在多个公开机器人数据源上学习离散动作 token 预测，让视觉和语言前缀先建立对「动作语义」的理解。

在后训练阶段，模型接入动作专家，并在更贴近实验室场景的数据上进行连续动作学习，并引入了「知识隔离」的机制，尽量避免动作学习过程对原有视觉语言能力造成干扰。换句话说，模型既要学会「怎么动」，也要尽量不丢掉「怎么看、怎么理解」的能力。

在 LabUtopia 上表现如何？

LabVLA 在 LabUtopia 仿真环境进行实验验证

在六类实验室任务上，LabVLA 覆盖了拾取、按钮操作、开门、倒液、加热和运输等典型动作。实验结果显示，LabVLA 在 ID 和 OOD 条件下都取得了最优表现，平均成功率分别达到71.1%70.0%

更重要的是，这个结果不是只在单一设置下成立。团队进一步用 LabEmbodied-Data 去微调其他具身模型，发现它对外部模型同样具有明显帮助，说明这套数据资产本身具备较强的通用性和迁移性，并不完全依赖某一个特定架构。

真机实验

为了验证模型的在真实世界的表现，团队将 LabVLA 部署到真实 Franka 机械臂平台，并与 DreamZero 以及 π0.5 等代表性机器人模型进行对比。实验包含四类典型实验室任务，包括摇晃液体、倾倒液体、磁力搅拌以及漏斗插拔，覆盖抓取、放置、倾倒、按压与器皿操作等基础实验技能。每个任务收集五十条数据，并对目标物体位置与最终放置区域进行随机扰动，以评估模型在真实环境中的泛化能力。

实验从两个维度构建测试场景，包括：目标位置是否超出训练分布，以及工作空间是否存在杂乱物体。LabVLA 在大多数设置下均取得超过 70% 的成功率，表明基于仿真的预训练能力能够有效迁移到真实实验环境。

在整体表现上，LabVLA 与 DreamZero 基本持平，并在部分更具挑战性的泛化场景中略有优势。例如在干净且分布在训练之外的位置设置中，LabVLA 的平均成功率达到 80%，高于 DreamZero。在最长时序的漏斗插拔任务中，LabVLA 也取得了最佳表现。实验进一步表明，液体倾倒任务对位置偏移与环境干扰最为敏感，而多步骤器皿操作则对模型的长程规划能力提出更高要求。总体而言，这些结果验证了 LabVLA 能够较好地从仿真迁移到真实实验室环境，并展示了其作为科学具身智能体的初步潜力。

基于上述工作思路，团队正在探索将 LabVLA 的科学具身能力应用于浙江大学、复旦大学、晶泰科技等真实科学场景，着重探索其在合成生物、药物发现、分子材料等场景的应用。其更重要的意义在于，可以在一定程度上替代人工进入高危或重复性强的实验环节，减少研究人员暴露在有毒、易燃或高温高压等实验条件下的风险，同时提升实验操作的一致性与可重复性。

面向科学具身的一点思考

如果只从实验指标来看，LabVLA 只是一个具身模型的性能结果；但放在 AI for Science 的整体框架下，它更接近于一次面向科学实验操作的基础设施探索。

首先，它将「实验室操作」这一长期缺乏形式化表达的过程，从经验性流程转化为可建模、可学习、可评估的具身学习问题，使科学实验操作具备了被算法系统化处理的可能性。

其次，它建立了一条从仿真数据生成、任务结构分解、动作策略学习到真实机器人验证的完整技术链路，从而将科学具身智能从单点任务优化推进到端到端闭环建模。这种闭环对于科学场景尤为关键，因为真实应用往往依赖跨环境、跨设备的连续泛化能力，而非孤立的任务表现。

最后，这项工作在一定程度上讨论了当前 AI 在实验室环境中的能力边界：LabVLA 目前更接近于一个能够初步执行科学实验的「技术员」，而非能够自主设计实验并根据结果动态调整策略的「科学家」。清晰界定这一边界，有助于为后续实现真正的 AI 科学助手提供更加明确的演进路径。

真实实验数据稀缺仍然是制约科学具身智能发展的核心瓶颈之一。我们希望通过开放模型、代码与数据，降低这一方向的研究门槛，推动科学具身智能从概念验证阶段走向更广泛的真实世界应用。

结语：从技术员到科学家，仍然还有很长的路

长期以来，AI for Science 更多聚焦于认知层面的突破，而实验这一连接假设与证据的关键环节，仍高度依赖人工操作。LabVLA 所探索的，并非让 AI 直接成为科学家，而是赋予其理解实验、执行实验的能力，使其能够作为科研人员的协作伙伴参与科学发现过程。

然而，构建真正通用的科学具身智能仍面临诸多挑战：实验室设备种类繁多、操作规范差异显著，真实实验中的误差累积、安全约束与环境扰动也远比仿真环境复杂；同时，高质量实验数据获取成本高昂，不同实验场景之间的知识与技能迁移能力仍然有限。因此，LabVLA 目前更多是在特定实验任务上的初步探索，距离能够自主适应开放实验环境、完成跨学科科学研究的通用实验智能体仍有较长距离

从知识理解到物理交互，从仿真学习到真实验证，科学具身智能或许正在打开 AI for Science 的下一扇门。