打开网易新闻 查看精彩图片

作者丨论文团队

编辑丨ScienceAI

空间智能(Spatial Intelligence)赋予了智能系统感知、解释物理世界并与之交互的能力,是通往通用人工智能(AGI)的重要基石。尽管当前的视觉语言模型(VLM)在一些宏观视觉任务上展现了潜力,但近期的研究表明,它们在处理三维空间关系、精确数值估计(如距离和尺寸)以及视角转换等任务时仍然面临巨大挑战。

如果说宏观世界的空间推理是 VLM 尚未攻克的「高地」,那么由原子和分子构成的微观世界则是一片完全不同的「盲区」。在药物研发、结构生物学和材料设计等前沿科学领域,专家们需要利用 PyMOL、ChimeraX 等专业软件可视化微观实体,通过二维投影在脑海中重建三维结构,并推断氢键、π-π 堆叠等复杂的物理相互作用。

来自中国人民大学、清华大学、北京大学、中科院自动化所以及阿里巴巴达摩院的研究团队,将这种感知和推理微观实体空间关系的能力,定义为微观空间智能(Microscopic Spatial Intelligence, MiSI)。为了评估 VLM 在该领域的真实水平,团队发布了 MiSI-Bench。这是首个系统性的微观空间智能基准,包含 163K 个问答对和 588K 张高分辨率图像,涵盖了从基础空间变换到复杂关系识别的九大任务,旨在挖掘 VLM 解决微观科学领域问题的潜力。论文第一作者为李宗钊,通讯作者为中国人民大学高瓴人工智能学院黄文炳老师。

打开网易新闻 查看精彩图片

论文标题:From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models

论文地址:https://arxiv.org/pdf/2512.10867

数据集地址:https://huggingface.co/datasets/zongzhao/MiSI-bench

打开网易新闻 查看精彩图片

图 1 MiSI-Bench 概览图

一、核心概念:什么是微观空间智能(MiSI)?

微观空间智能(MiSI)被定义为感知并推理「不可见」微观实体(如原子、分子)空间关系的能力。它是人类在结构生物学、药物发现和材料科学等领域进行科研发现的认知根基。

1. 跨模态桥梁:从 3D 坐标到多视角图像

传统的 AI 制药模型主要在笛卡尔坐标中进行操作。与之不同,MiSI 提出了一个互补的、更接近人类专家的视角:通过多视角图像来解析三维分子结构。这不仅是为了契合 VLM 读取并处理 2D 图片的需求,更是模拟了人类专家的工作流 —— 即利用专业工具(如 pyMol、ChimeraX)将复杂的 3D 实体渲染为二维正交投影。这种 2D 图像成为了连接微观物理世界与大模型视觉感知的桥梁,要求模型具备从 2D 信号中还原 3D 分子结构的能力。

2. 微观空间推理的三大核心挑战

从宏观尺度(Macro-scale)跨越到原子尺度(Atom-level),微观空间推理面临着以下三大挑战:

  • 不可见性:微观实体无法直接观察,必须依赖特定的渲染算法被转化为二维图像。这要求模型不仅要识别视觉特征,更要具备从多视角 2D 投影图中重建 3D 结构的心理模拟能力。
  • 物理约束:不同于宏观场景中简单的视觉遮挡或位置邻近,微观实体的关系遵循极其严格的物理规则。例如,氢键的判定取决于原子间的供体 - 受体距离和角度,而非模糊的视觉靠拢。
  • 专业门槛:解析这些分子图像需要同时结合领域知识与空间想象力。即使对于人类专家,要想象蛋白质口袋与配体小分子进行对接的最佳位置和姿态,也是一项极大的挑战。

二、MiSI-Bench:全方位的基准构建

为了全面考察 VLM 的微观空间认知能力,研究团队基于广泛采用的药物设计数据集 PDBbind 构建了九项互补的任务,提出了 MiSI-Bench。图 1 是 MiSI-Bench 概览图,图 2 则对所有九项任务进行了简要的展示。所有任务的输入均为蛋白质口袋 - 小分子配体(以下统称为复合物)进行正交投影后得到的图像(通常包含前视图、左视图、俯视图等正交视角)和问题文本。即,模型需要完全基于视觉和文本信息进行推理,而无法获取底层 3D 坐标。

1.基础单元任务(Unit Tasks)

独立评估模型想象与理解微观 3D 结构的底层能力:

  • T1 平移(Translation):推理复合物沿 X/Y 轴移动的具体方向与距离。
  • T2 旋转(Rotation):判断复合物绕 X/Y/Z 轴旋转的方向和角度。
  • T3 缩放(Zooming):根据视野的放大或缩小程度,推断复合物沿 Z 轴深度方向产生的缩放比例。
  • T4 残基 - 配体相互作用(Residue-Ligand Interaction):识别图像中特定蛋白质残基与小分子配体之间是否存在氢键,并指出形成氢键的具体原子对。

2. 复合推理任务(Composite Tasks)

  • T5 平移 - 旋转复合变换(Translation - Rotation):模型首先观察参考复合物的变换,推理其先平移后旋转的连续逻辑,然后将该逻辑应用到一个新的目标复合物上,从选项中选出变换后的图像 。
  • T6 旋转 - 旋转复合变换(Rotation - Rotation):模型需先推理参考复合物经历的一组两次连续旋转操作,然后将这同一组操作,再次应用到该复合物(即已应用了第一次连续旋转后的状态)上,从而推理出「二次变换」后的结果,并从选项中选出对应的图像。
  • T7 配体对接(Ligand Docking):模拟真实的对接过程,推断将配体移动到对接位置所需的旋转和平移操作。
  • T8 相互作用定位(Interaction Location):模型需要根据视觉图像定位形成氢键的所有原子的质心,并计算将其移动至图像中心所需的平移操作。
  • T9 口袋 - 配体相互作用(Pocket-Ligand Interaction):模型需要整合多个 2D 视角图像,列出蛋白质口袋与小分子配体之间所有的氢键。

打开网易新闻 查看精彩图片

图 2 九大任务的简要展示图

3. 数据生成与渲染流程

为了确保数据集的质量,团队开发了一套自动化的三阶段数据生产流程,将原始的 3D 坐标转化为 VLM 可理解的视觉语言,如图 3 所示。

  • 数据收集与过滤:从 PDBbind 数据库中提取 4000 余个复合物,去除溶剂并隐藏氢原子。
  • 专业渲染标注:通过编写 ChimeraX 脚本对复合物结构进行可视化渲染与标注。其中,氧、氮、碳原子分别采用红、蓝、灰的标准配色;蛋白质口袋中的相邻残基使用紫色与橙色交替着色以增强辨识度。同时记录所有原子的屏幕坐标以及复合物中的氢键信息作为真实标签。
  • 程序化 QA 合成:针对每个子任务设计专用的 QA 模板,并将元信息填充至模版中,形成结构完整的标准化数据实例。所有输出图像均保持统一的高分辨率,以确保 VLM 能够捕获细微的结构特征。

打开网易新闻 查看精彩图片

图 3 数据生成流程图

三、公平对比:数据分布与阶梯式评估设计

为了让不同规模的模型和人类专家都能进行公平对比,研究团队设计了相应的数据划分方案。

1. 数据集整体统计

MiSI-Bench 是目前微观空间领域涵盖任务最全面、规模最大的数据集,具体统计如下:总规模:包含 163,514 个问答对和 587,975 张图像,涵盖 3993 个 PDB 复合物;训练集:包含 150,597 个问答对和 538,015 张图像,涵盖 3503 个 PDB 复合物;测试集:包含 12,917 个问答对和 49,960 张图像,涵盖 490 个 PDB 复合物。图 4 展示了各类任务的样本数量占比。

打开网易新闻 查看精彩图片

图 4 各类任务的样本数量占比

2. 阶梯式评估

考虑到顶级闭源模型(如 GPT-5-mini、Claude Sonnet4.5)高昂的调用成本和人类专家有限的评估精力,研究团队从原始测试集中为每项任务随机抽取了 50 个问答对,构成了一个精简的 MiSI-Bench (Tiny) 评估集。

  • 顶级闭源模型与人类专家:均在 MiSI-Bench (Tiny) 评估集上进行评估。
  • 开源模型(如 Qwen2.5-VL-7B):在完整的 MiSI-Bench 训练集上进行了监督微调(SFT),并使用完整测试集进行性能评估。

四、实验深度分析:人类、闭源大模型与微调模型的较量

打开网易新闻 查看精彩图片

表 1 人类、闭源大模型和微调模型在 MiSI-Bench 上的表现

1. 人类表现

在基础的微观空间建模任务中,人类表现出色,展现出卓越的生物知识与空间推理整合能力。然而,面对复杂任务时,人类的局限性也十分明显:

  • 认知负荷的瓶颈:人类能够处理小角度旋转,但在需要维持空间连续性、追踪多原子的大尺度旋转时,认知负荷显著增加,判断准确性大幅下降。
  • 缩放任务的挑战:由于缺乏明确的参考点,人类在判断「缩放」时主要依赖整体直觉(如边界和原子密度的变化),导致估计误差较大。
  • 复合任务的误差累积:在「平移 + 旋转」等复合变换中,连续的空间操作导致误差累积与参考系频繁切换,预测准确率断崖式下降。
  • 最难任务:分子对接和口袋 - 配体相互作用被证明是最具挑战性的任务,因为它们不仅需要空间变换能力,还需要深厚的生物学知识(如氢键形成位置)和多视角信息整合。

2. 主流 VLM 表现

即便是目前最顶尖的闭源模型(如 GPT-5-mini、Claude Sonnet4.5),在处理微观空间关系时仍存在明显短板,在多数任务上显著落后于人类:

  • 对距离敏感,对旋转不敏感:模型在平移等距离相关任务上的表现优于旋转任务。这反映出目前的 VLM 受限于二维图像训练,更擅长处理在二维投影中易于捕捉的属性。
  • 领域专业知识匮乏:在涉及「残基 - 配体」或「口袋 - 配体」相互作用的专业任务中,模型与人类的表现差距达到最大。这说明现有模型在生物学专业领域的知识储备严重不足。

3. SFT 模型表现

实验表明,通过在特定数据集上进行 SFT,模型的表现发生了质的飞跃:

  • 在特定任务上超越人类:经过微调后的模型在所有任务上均显著优于主流 VLM。值得注意的是,在人类接近随机猜测的两个复合变换任务中,模型取得了约 90% 的准确率,证明了其强大的三维空间认知潜力。
  • 成功跨越领域鸿沟:研究表明,模型此前的劣势并非源于缺乏空间感,而是因为缺乏对蛋白质等特殊结构的「视觉先验」。SFT 微调成功建立了跨领域的特征映射,充分激发了其潜在的空间推理能力。
  • 未来课题:尽管空间能力得到提升,但在依赖深度领域知识(如复杂相互作用判定)的任务中,模型仍落后于人类。未来的研究应聚焦于如何将结构生物学的显性知识更有效地注入模型的基础训练中。

五、 任务样本展示

团队选取了基础单元任务(T2 旋转)与复合推理任务(T9 口袋 - 配体相互作用)的样本进行展示(如图 5 所示)。更多实验结果分析、所有任务的输入图像与问题提示等详细信息,可参考原论文及附录。

打开网易新闻 查看精彩图片

图 5 左:T2 旋转任务;右:T9 口袋 - 配体相互作用任务

六、 总结与未来展望

MiSI-Bench 作为首个系统性衡量微观空间智能(MiSI)的基准,揭示了当前顶尖视觉语言模型在理解原子级空间逻辑上的巨大潜力与现有瓶颈:尽管经过微调的小规模模型在复杂旋转等空间变换任务中已能超越人类表现,但在氢键识别等依赖深层领域知识的任务中仍面临挑战。这表明,实现「科学通用人工智能(Scientific AGI)」的征程不仅依赖于空间模拟能力的提升,更需要在预训练阶段显式地整合结构生物学等学科的专业先验知识,以打破视觉感知与科学逻辑之间的屏障,最终为药物设计、材料科学等微观领域的自动化发现提供核心动力。