Gemini 3仅得33.6分！清华发布首个「约束流形」空间智能基准|拓扑|新论文|构件|构型|清华|约束流形

新智元报道

编辑：LRST

【新智元导读】SSI-Bench是首个在约束流形中评估模型空间推理能力的基准，强调真实结构与约束条件，通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系，揭示当前大模型在空间智能上严重依赖2D信息，实际表现远低于人类。研究指出，模型需提升三维构型识别和约束推理能力，才能真正理解空间问题。

如果你把一个在空间理解榜单上刷分很高的多模态大模型，直接丢进真实世界，它很可能会在看起来很简单的问题上翻车。

不是因为它不会「看」，而是因为它从来没有被迫真正尊重三维结构的可行性——它可以靠2D相关性、外观先验、数据集套路，走捷径拿分。

而现实世界里，很多空间问题的本质恰恰相反：能怎么摆、怎么连、怎么受力，不是随意的；可行解往往只存在于一个被几何、拓扑、物理强约束「压扁」的空间里。

为此，清华大学的研究团队推出SSI-Bench，从AI与结构工程的交叉视角出发，为空间智能评估提供了一种新的场景化思路——将评测置于复杂三维结构的约束流形中，系统检验多模态大模型的空间智能表现。

项目主页：https://ssi-bench.github.io/

Arxiv论文：https://arxiv.org/abs/2602.07864

Hugging Face数据集：https://huggingface.co/datasets/cyang203912/SSI-Bench

Github代码库：https://github.com/ccyydd/SSI-Bench

论文将这种能力明确界定为Constrained-Manifold Spatial Reasoning（CMSR，约束流形空间推理）：

在此类任务中，潜在三维状态并非可被任意「臆测」，而是受到显式约束的限定，仅能落在一个可行解集合内——既需要满足等式约束（如几何一致性、连接关系等），也需要满足不等式约束（如非相交条件、支撑条件与物理可行性等）。

更重要的是，强约束会显著收缩可行三维配置空间，使「高度、距离、最短路径」等空间关系在不同合理解释下更具稳定性，从而使评测结果具备更好的可量化性与可比性。

SSI-Bench正是在这一背景下提出：它不再将模型置于约束较弱、可自由组合的日常场景中，而是面向复杂真实工程结构构建评测环境，要求模型形成约束一致的三维结构假设，并在此基础上完成空间推理。

聚焦复杂三维结构

纯人工硬核打造

任务形式：用排序题「逼出」真3D

SSI-Bench不再让模型做选择题，而是统一成排序任务：每题给出3或4个候选「构件/构件组」，要求在指定几何/拓扑准则下输出正确的全排列顺序。

覆盖能力：几何+拓扑+多视角一致性

全基准共1,000道排序题，任务分两大类：

几何类（Geometric）：Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume；
拓扑类（Topological）：Hop Distance / Cycle Length等图结构关系；

并额外引入多视角题目：以两张图配合，一张提供参考构件，一张给出待比较目标，重点考察跨视角构件对应与整体结构一致性。

构建过程：十位研究者耗费400+小时纯人工打磨

为了保证数据集的质量与多样性，同时也由于缺乏真实结构构件的标注数据，SSI-Bench的构建流程非常「硬核」——10位研究者投入超过400小时，从大量真实结构图片中进行人工筛选与题目设计：

数据收集：研究中共计审阅约20,000张结构相关图片，结构形式包括空间网架、铁塔、斜拉桥、木竹结构、钢筋笼、管道等，最终保留2,000+候选；主要来自免版税来源（Unsplash / Pexels / Pixabay），多视角部分还补充了自采图像。
任务设计：结合空间智能需求与结构工程专业知识，共精心设计2大类、10小类任务。
元数据标注：判断每张图片适用的任务类型，使用Label Studio提供构件定位标注；
问题生成：依据图片色彩自动选取标注颜色，并按构件位置自动布局标注文本；问题生成后，由人工复核清晰度与遮挡情况。
质量检验：每题均由独立检查者复核，若存在分歧则交由第三人裁决。最终共获得1,000道有效题目。

模型仍在起跑线

人类领先近六成

SSI-Bench系统评测了31个主流VLM，结论非常直接：人类几乎「碾压式领先」。

人类平均91.6%，最强闭源33.6%（Gemini-3-Flash），最强开源22.2%（GLM-4.6V），随机猜测基线12.85%

也就是说，哪怕拿到当下最强大模型，人类仍然领先58个百分点（91.6 − 33.6）。

更为关键的是，即使鼓励模型生成更长的推理过程，整体提升也多停留在边际层面，难以触及问题的核心瓶颈。并且在部分高度依赖全局三维一致性的任务（如Multi-View、Volume）中，过度推理反而可能在错误的结构假设上持续累积偏差，使结果进一步偏离正确答案。

从结果到机制

关键瓶颈在哪里？

论文对代表模型做了人工复盘，归纳出四类高频错误：

构件范围误判：仅观察到局部便误认为整体，或对端点位置产生错误「补全」；遮挡越多，问题越突出。
构件/节点识别错误：混淆不同部件，方向判断失准（例如将倾斜构件误判为水平或垂直）。
计算与比较逻辑错误：在Area/Volume等任务中计算方式错误（例如以2D投影替代3D体积），或采用不成立的简化假设。
3D空间逻辑错误：深度关系混乱、跨视角对应失败、关系组合不稳定，进而导致整体结构假设不一致。

这也解释了SSI-Bench的「硬核」并不在于题目刻意刁钻，而在于它迫使模型直面并补齐两项关键短板：三维结构构型识别与约束一致的空间推理。

结语

SSI-Bench的价值，并不是再造一个「更难的VQA」，而是把空间智能评估拉回一个更接近现实的坐标系：

当场景是复杂真实结构、当可行解被强约束收缩、当2D捷径不再可靠——模型是否还能稳定地构建约束一致的3D结构假设并完成推理？

从目前结果看，答案仍然很残酷：模型还在起跑线，人类已在终点线附近。

但也正因如此，SSI-Bench给出了一个非常明确的研究方向：

让空间智能体从「会看图说话」，走向「会在结构里思考」。

参考资料：

https://ssi-bench.github.io/

Yang, C. (杨晨), Lin, G., He, Y., Chen, P., Liu, G., Mo, Y., Xu, Z., Wang, L., Zhang, G., Zhang, Z., Zeng, S., Wang, C. (王琛), & Fan, J. (樊健生) (2026). Thinking in structures: Evaluating spatial intelligence through reasoning on constrained manifolds. arXiv. https://arxiv.org/abs/2602.07864.