打开网易新闻 查看精彩图片

在 AI for Science 快速发展的今天,大模型已经能够在文献理解、科学推理与实验规划等认知层面展现出强大能力。然而,当研究真正进入科学实验室,面对烧杯、移液器、加热板与离心机等真实设备时,现有系统仍然难以将抽象实验步骤转化为稳定、可泛化的操作行为。

这一鸿沟的主要原因,并非 AI 机器人能力不足,而是科学实验本身包含大量隐性的操作知识与流程结构,这些知识难以被现有数据驱动方法有效表达与学习。因此,现有实验室自动化系统往往停留在「流程执行器」的层面,而非能够从实验知识中学习操作策略的智能系统。

浙江大学与上海人工智能实验室近日联合推出 LabVLA,旨在探索一种更具泛化能力的科学具身智能范式:将视觉 - 语言 - 动作(Vision-Language-Action, VLA)预训练引入科学实验场景,使模型能够从自然语言实验描述出发,学习跨任务、跨环境的实验操作规律,而不仅仅是执行单一固定流程。

为支撑这一目标,团队构建了知识增强的仿真数据引擎 RoboGenesis 与科学具身语料 LabEmbodied-Data,使模型能够在大规模、多变化的实验模拟环境中学习操作先验。在科学实验具身操作基准 LabUtopia 上,LabVLA 在 ID 与 OOD 设置下分别取得 71.1% / 70.0% 的平均成功率,并在 Franka 真实机器人平台上进行了真机实验验证。

打开网易新闻 查看精彩图片

  • 论文地址:https://arxiv.org/pdf/2606.13578
  • 项目地址:https://zjunlp.github.io/LabVLA/
  • 模型地址:https://huggingface.co/zjunlp/LabVLA
  • 代码地址:https://github.com/zjunlp/LabVLA

当 AI 走进科学实验室:从「会思考」到「会动手」还缺什么?

过去几年,AI for Science 的进展主要集中在认知层面。无论是蛋白质结构预测、科学文献理解,还是材料发现,模型处理的对象大多是文本、序列、图结构或数值信息。它们擅长的是「理解知识」,但并不直接面对实验室里的物理世界

为了让 AI 真正成为科学研究助手,仅仅「会思考」还不够,还需要具备「会动手」的能力。近年来,自动化实验平台或自主实验室(Self-driving Labs)在材料科学、化学合成、生物实验等领域取得了显著进展,通过机械臂、自动化仪器与智能优化算法实现实验流程的自动执行。然而,这类系统大多面向特定实验任务设计,依赖固定设备和预定义工作流,虽然能够高效完成专门场景下的大规模实验,却缺乏跨任务、跨设备和跨环境的泛化能力

与此同时,通用机器人领域的 VLA 模型在家庭、工业等场景里已经展现出不错的操作能力,但科学实验室场景具有明显不同的特点:有透明液体、精密仪器、严格流程、复杂安全约束,也有大量专业动作,例如倒液、加热、按压、转运和器皿摆放。通用机器人模型如果没有针对性训练,往往难以直接适配这样的环境。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/4_lIVYytD0cSNu1kh7NPUA

LabVLA 在 Franka 机械臂上进行科学实验

科学实验并不仅仅是动作执行问题,而是一种受科学知识约束的具身策略学习过程。LabVLA 试图打通 AI for Science 的推理能力与具身系统的操作能力之间的壁垒,使实验操作具备跨任务、跨环境的泛化能力。

RoboGenesis:把实验流程变成可规模化的数据

现有仿真数据通常缺乏科学过程约束,难以表达实验中的隐式操作逻辑。科学实验室机器人的真实数据采集面临高成本、低覆盖和强依赖等挑战:不仅需要专业设备、领域专家参与及严格的安全保障,还难以覆盖开放复杂的实验场景。

浙大x上海 AI Lab联合探索科学具身智能2
打开网易新闻 查看更多视频
浙大x上海 AI Lab联合探索科学具身智能2

针对这一问题,团队提出知识增强的仿真数据引擎 RoboGenesis,将科学原理、实验规范与操作逻辑编码进可编程仿真环境,实现从「依赖人工示教的数据采集」向「依托科学知识的自动化经验生成」转变。RoboGenesis 旨在搭建一座连接科学知识与机器人行为的桥梁,使实验知识能够沉淀为可执行、可复用、可迁移的具身经验,为科学具身智能的发展提供新的数据范式。

打开网易新闻 查看精彩图片

知识增强科学具身数据合成

RoboGenesis 的思路可以概括为三步。

第一步是实验空间构建。系统先根据文本描述生成参考图像,再借助三维重建与物理标注,自动生成可用于训练的实验室场景资产,并批量组合成不同实验环境。

第二步是实验工作流生成。面对一条自然语言指令,例如「将液体从烧杯 A 转移到烧杯 B 并加热」,系统会先将其拆解为多个原子技能,再在不同机器人平台上实例化执行,同时对场景、相机、光照、杂物、物体与空间关系进行随机化,提升模型的泛化能力。

第三步是结构化经验沉淀。团队对生成轨迹进行一致性验证与执行筛选,以保证数据质量,并为其附带任务步骤、物体状态、相机参数、空间关系等多类标注,形成LabEmbodied-Data。这意味着,实验流程不再只是「演示视频」,而是可以直接用于模型训练的高质量监督信号。

从方法上看,RoboGenesis 的意义不只是「造数据」,而是尝试把实验室中原本隐性的操作经验,转化为可复用、可扩展、可迁移的结构化训练资源。

LabVLA:构建从视觉理解到动作生成的统一科学实验操作模型

在模型设计上,LabVLA 采用了开源大模型作为视觉语言骨干,并搭配一个动作专家模块,负责输出连续控制信号。训练过程分为两个阶段。

在预训练阶段,模型先在多个公开机器人数据源上学习离散动作 token 预测,让视觉和语言前缀先建立对「动作语义」的理解。

在后训练阶段,模型接入动作专家,并在更贴近实验室场景的数据上进行连续动作学习,并引入了「知识隔离」的机制,尽量避免动作学习过程对原有视觉语言能力造成干扰。换句话说,模型既要学会「怎么动」,也要尽量不丢掉「怎么看、怎么理解」的能力。

在 LabUtopia 上表现如何?

打开网易新闻 查看精彩图片

LabVLA 在 LabUtopia 仿真环境进行实验验证

在六类实验室任务上,LabVLA 覆盖了拾取、按钮操作、开门、倒液、加热和运输等典型动作。实验结果显示,LabVLA 在 ID 和 OOD 条件下都取得了最优表现,平均成功率分别达到71.1%70.0%

更重要的是,这个结果不是只在单一设置下成立。团队进一步用 LabEmbodied-Data 去微调其他具身模型,发现它对外部模型同样具有明显帮助,说明这套数据资产本身具备较强的通用性和迁移性,并不完全依赖某一个特定架构。

真机实验

为了验证模型的在真实世界的表现,团队将 LabVLA 部署到真实 Franka 机械臂平台,并与 DreamZero 以及 π0.5 等代表性机器人模型进行对比。实验包含四类典型实验室任务,包括摇晃液体、倾倒液体、磁力搅拌以及漏斗插拔,覆盖抓取、放置、倾倒、按压与器皿操作等基础实验技能。每个任务收集五十条数据,并对目标物体位置与最终放置区域进行随机扰动,以评估模型在真实环境中的泛化能力。

打开网易新闻 查看精彩图片

实验从两个维度构建测试场景,包括:目标位置是否超出训练分布,以及工作空间是否存在杂乱物体。LabVLA 在大多数设置下均取得超过 70% 的成功率,表明基于仿真的预训练能力能够有效迁移到真实实验环境。

在整体表现上,LabVLA 与 DreamZero 基本持平,并在部分更具挑战性的泛化场景中略有优势。例如在干净且分布在训练之外的位置设置中,LabVLA 的平均成功率达到 80%,高于 DreamZero。在最长时序的漏斗插拔任务中,LabVLA 也取得了最佳表现。实验进一步表明,液体倾倒任务对位置偏移与环境干扰最为敏感,而多步骤器皿操作则对模型的长程规划能力提出更高要求。总体而言,这些结果验证了 LabVLA 能够较好地从仿真迁移到真实实验室环境,并展示了其作为科学具身智能体的初步潜力。

基于上述工作思路,团队正在探索将 LabVLA 的科学具身能力应用于浙江大学、复旦大学、晶泰科技等真实科学场景,着重探索其在合成生物、药物发现、分子材料等场景的应用。其更重要的意义在于,可以在一定程度上替代人工进入高危或重复性强的实验环节,减少研究人员暴露在有毒、易燃或高温高压等实验条件下的风险,同时提升实验操作的一致性与可重复性。

面向科学具身的一点思考

如果只从实验指标来看,LabVLA 只是一个具身模型的性能结果;但放在 AI for Science 的整体框架下,它更接近于一次面向科学实验操作的基础设施探索。

首先,它将「实验室操作」这一长期缺乏形式化表达的过程,从经验性流程转化为可建模、可学习、可评估的具身学习问题,使科学实验操作具备了被算法系统化处理的可能性。

其次,它建立了一条从仿真数据生成、任务结构分解、动作策略学习到真实机器人验证的完整技术链路,从而将科学具身智能从单点任务优化推进到端到端闭环建模。这种闭环对于科学场景尤为关键,因为真实应用往往依赖跨环境、跨设备的连续泛化能力,而非孤立的任务表现。

最后,这项工作在一定程度上讨论了当前 AI 在实验室环境中的能力边界:LabVLA 目前更接近于一个能够初步执行科学实验的「技术员」,而非能够自主设计实验并根据结果动态调整策略的「科学家」。清晰界定这一边界,有助于为后续实现真正的 AI 科学助手提供更加明确的演进路径。

真实实验数据稀缺仍然是制约科学具身智能发展的核心瓶颈之一。我们希望通过开放模型、代码与数据,降低这一方向的研究门槛,推动科学具身智能从概念验证阶段走向更广泛的真实世界应用。

结语:从技术员到科学家,仍然还有很长的路

长期以来,AI for Science 更多聚焦于认知层面的突破,而实验这一连接假设与证据的关键环节,仍高度依赖人工操作。LabVLA 所探索的,并非让 AI 直接成为科学家,而是赋予其理解实验、执行实验的能力,使其能够作为科研人员的协作伙伴参与科学发现过程。

然而,构建真正通用的科学具身智能仍面临诸多挑战:实验室设备种类繁多、操作规范差异显著,真实实验中的误差累积、安全约束与环境扰动也远比仿真环境复杂;同时,高质量实验数据获取成本高昂,不同实验场景之间的知识与技能迁移能力仍然有限。因此,LabVLA 目前更多是在特定实验任务上的初步探索,距离能够自主适应开放实验环境、完成跨学科科学研究的通用实验智能体仍有较长距离

从知识理解到物理交互,从仿真学习到真实验证,科学具身智能或许正在打开 AI for Science 的下一扇门。