北大攻克三维场景理解难题:用"双曲空间"重新定义AI看世界的方式|三维场景|北大|双曲空间|曲率|编码器

这项由北京大学计算机科学学院主导的研究成果于2026年4月发布，论文编号为arXiv:2604.17454，有兴趣深入了解的读者可以通过该编号在学术预印本平台查阅完整论文。

**当机器人迷路时，问题出在哪里？**

假设你第一天去一个完全陌生的购物中心，你的大脑会自然地建立一张"心智地图"：一楼是超市，二楼是餐厅，餐厅里有几张桌子，桌子旁边有椅子。这种从"大范围场所"到"具体物品"的层级感，对你来说毫不费力——你天然就知道椅子比餐厅更"具体"，餐厅比整栋楼更"局部"。

然而，对于当今的人工智能系统来说，这种看似理所当然的层级感恰恰是一块难啃的骨头。现有的大多数AI在理解场景时，会把"餐厅"和"椅子"丢进同一个"平面容器"里——就好像你把不同大小的俄罗斯套娃全都拆散铺在桌子上，失去了原本一个套着一个的嵌套关系。这个问题直接影响了机器人导航、自动驾驶、增强现实等一系列与普通人生活息息相关的技术。

北京大学的研究团队提出了一个颇具创意的解决方案，他们开发了一套名为"双曲场景图"（Hyperbolic Scene Graph，以下简称HSG）的新框架。这套框架的核心思想是：把AI理解场景的"战场"从普通的欧几里得空间（也就是我们日常生活里量长度用的那种平直空间）换到一种特殊的"双曲空间"——在这里，层级关系会被空间的几何形状天然地编码进去，就像俄罗斯套娃被放回了它们该在的嵌套位置。

**一、普通空间为何装不下"谁包含谁"的关系**

理解HSG的关键，首先要理解为什么现有的方法会在层级关系上栽跟头。

当下主流的场景图系统，比如北京大学团队此前提出的MSG（多视角场景图）框架，会用一种叫做"对比学习"的技术让AI学习场景理解。这种技术就像在告诉AI："这两张照片里都有同一把椅子，所以它们应该在数学空间里彼此靠近；而这把椅子和那个完全不相关的马桶就应该离得远远的。"学完之后，AI会把每个场景元素——不管是一个房间还是一把椅子——用一串数字来表示，这串数字决定了它在数学空间里的"坐标"。

问题在于，普通的欧几里得空间（你可以理解为标准的坐标纸，横轴竖轴都是直线）在表示层级关系时效率极低。在一张普通坐标纸上，如果你想表示"餐厅包含桌子，桌子旁有椅子"这样三层嵌套的关系，随着层级越来越多、越来越复杂，你需要的坐标轴数量会急剧膨胀——就像你试图把一棵参天大树压扁塞进一张薄薄的纸里，树枝不得不重叠交叉、乱成一团。麻省理工学院和其他机构的先前研究已经证实，欧几里得空间处理这类树形层级结构时确实力不从心。

于是，北京大学团队把目光投向了双曲空间。双曲空间是一种具有"恒定负曲率"的弯曲空间——如果普通坐标纸是一张平铺的桌面，那双曲空间就像一个形状类似马鞍或羽衣甘蓝叶子边缘的弯曲表面，越往外延伸，空间就以指数级速度变大。这个特性让双曲空间天然适合表示树形结构：越抽象、越宏观的概念放在靠近中心的位置，越具体、越细粒度的概念放在远离中心的外围，而随着层级的增加，外围空间会以指数速度增长，永远有足够的地方容纳更多细节。

用一个类比来说：双曲空间就像一棵被魔法缩小的神奇树。树干（最抽象的概念，比如"整个建筑"）在最中心，枝干（中等层级的概念，比如"餐厅"、"卧室"）向外延伸，每一根树叶（最具体的元素，比如"那把红色的椅子"）挂在最外面。越往外，可以挂的树叶数量以指数级增长，无论你的场景多么复杂，这棵树永远有足够的枝丫来容纳所有细节。

**二、HSG是如何把这棵"神奇的树"搭建起来的**

HSG的实现依赖于一种被称为"洛伦兹模型"的数学工具——这是描述双曲空间最常用的几种数学语言之一，和爱因斯坦相对论里描述时空的数学结构有几分相似之处（虽然物理含义完全不同）。在洛伦兹模型里，每个概念被表示为一个多维空间中的点，这个空间满足一个特殊的方程，使得整个空间具有均匀的负曲率。

在这个框架里，"原点"（也就是空间里最中心的那个点）被赋予了特殊的意义：它代表最抽象、最宏观的概念，可以把它理解为"世界上所有事物的祖先"，研究团队称之为"根节点"（ROOT）。越接近根节点，概念越抽象；越远离根节点，概念越具体。按照这个设定，"餐厅"这类场所级别的概念应该比"椅子"这类物体级别的概念更靠近根节点。

HSG的第一个核心操作是"把普通数字变成双曲空间里的点"。AI在处理图像时，图像编码器（这里使用的是来自Meta的DINOv2模型，一种经过大规模自监督训练的强大视觉特征提取器）会先把每张图片变成一串普通的数字。然后HSG通过一种叫做"指数映射"的数学操作，把这串数字"搬"到双曲空间的表面上，就像把一张平整的地图贴到一个弯曲的球面上一样。贴上去之后，所有的数字点都严格地落在双曲曲面上，而不是在空间里到处乱飘。

HSG的第二个核心操作是改造"学习方式"。原有的MSG框架使用余弦相似度（两个向量夹角的余弦值）来衡量两个概念的相似程度。HSG把这个衡量工具换成了双曲空间里的"测地距离"（也就是曲面上两点之间的最短路径长度）。这种距离有一个欧几里得空间没有的奇妙特性：在双曲空间里，随着层级深度的增加，距离以指数速度拉开，而不是线性增长。这意味着"餐厅"和"椅子"之间的距离，不仅仅因为它们是不同类型的东西而拉大，还会因为它们处于不同的层级而进一步拉开——这正是人类直觉里"场所比物品更宏观"的数学体现。

研究团队还特别注意了一个实际工程问题：双曲函数（cosh、sinh）的值会随着数值增大而急剧膨胀，很容易超出计算机能处理的数值范围，产生数值溢出错误。为了解决这个问题，HSG在进行指数映射之前，会把输入向量的大小限制在一个安全范围内，确保整个计算过程的稳定性。

**三、让AI真正"懂得"包含关系的法宝：蕴含锥损失函数**

仅仅把空间换成双曲空间还不够，因为AI在学习时不一定会自动"领会"双曲空间的层级含义。北京大学团队的一个重要创新是引入了一种叫做"蕴含锥损失函数"（Entailment Loss）的额外学习目标，主动地把"场所包含物体"这个常识强制编码进AI的学习过程里。

这个机制的原理可以用一个灯塔和它的照射范围来理解。在双曲空间里，每个"场所"概念（比如"厨房"）都会定义一个从它出发的锥形区域，就像灯塔发出的锥形光束。这个锥形区域被称为"蕴含锥"，凡是属于这个场所的物体（比如"灶台"、"冰箱"），它们在双曲空间里的位置都应该落在这个锥形区域之内。

更巧妙的是，锥形区域的"张开角度"（专业术语叫"半开角"）并不是固定不变的：越靠近原点的场所，它的锥形张角就越大（覆盖更广泛的可能性）；越远离原点的概念，锥形张角就越小（只覆盖非常具体的内容）。这完全符合我们的直觉——"整栋建筑"可以包含各种各样的东西，而"某一个具体的书架"只能包含有限的几种物品。

HSG的蕴含锥损失函数会计算每一个"物体"概念与其对应的"场所"概念之间的"外角"（外角可以理解为物体相对于场所的偏离程度），然后判断这个外角是否落在场所的蕴含锥范围之内。如果落在里面，损失为零（AI已经学对了）；如果跑出了锥形区域，损失就会等于"超出的角度量"，迫使AI调整，把物体的位置"拽"回锥形区域里来。

研究团队还引入了一个"开口系数η"来灵活调节蕴含锥的松紧程度——η越大，蕴含锥越宽松（更容易包含），η越小，要求越严格。实验表明，这个系数的取值对最终结果影响不大，说明HSG对这个参数非常鲁棒，不需要花大量时间调参。

最终，HSG的总学习目标由三部分组成：场所级别的对比学习损失、物体级别的对比学习损失，以及蕴含锥损失，三者加权相加，权重比例为1:1:20（蕴含锥损失被赋予了更大的权重，说明层级约束在整个学习过程中占有举足轻重的地位）。

**四、HSG如何把场景图从图片里"拼"出来**

理解了HSG的数学基础之后，来看看它在实际场景中是怎么运作的。

假设你手里有几十张从不同角度拍摄的同一个公寓的照片，但这些照片没有任何标注，甚至不知道拍摄顺序。HSG的任务是从这些"散乱的照片"里，重建出一张结构化的"场景图"——里面记录了这个公寓里有哪些地点（客厅、卧室、厨房），每个地点里有哪些物体（沙发、书架、冰箱），以及哪些照片其实拍的是同一个地点或同一个物体。

整个流程分成几个步骤。首先，每张输入照片会同时经过两条处理通道：图像编码器提取整张照片的全局视觉特征（用来表示"场所"），以及物体检测器识别出照片里出现的每一个具体物体。这里使用的物体检测器基于DETR（一种用Transformer架构设计的端到端目标检测模型），通过可学习的"物体查询"向量和交叉注意力机制，从图像特征中提取出每个物体的视觉表示。

然后，这些来自不同照片的场所特征和物体特征分别经过HSG的双曲映射，被送入双曲空间里。利用双曲距离（测地距离），AI判断哪些照片拍的是同一个地点（场所匹配），哪些检测到的物体其实是同一个现实中的物体（物体匹配）——就像把散乱的拼图碎片根据它们在双曲空间里的位置关系拼在一起。

对于被判定为同一个物体的多个观测（来自不同角度的照片），系统会通过"融合"操作把它们的特征合并成一个统一的全局表示。融合方式可以是简单的平均，也可以是更复杂的基于注意力机制的加权融合，让系统更侧重于从更清晰、信息更丰富的视角获取的特征。

跨视角的物体匹配借助了一个额外的指标：广义交并比（GIoU）。它衡量两张照片里检测到的物体边界框有多大程度的重叠，配合视觉特征相似度，共同决定两个检测结果是否对应同一个现实物体。最终，通过最优匹配算法（类似于婚恋配对中的稳定婚姻算法），每个预测物体都会被指派给最匹配的真实物体，从而让场景图的评估有了公平、可量化的基础。

训练数据来自ARKitScenes数据集——苹果公司发布的一个大规模室内场景数据集，包含用iPhone拍摄的大量室内RGB-D（带深度信息的彩色）视频。研究团队从中提取了4492个训练场景和200个测试场景，两者没有任何重叠，保证了评估的公正性。

**五、实验结果：数字背后的真实故事**

研究团队设计了一套完整的评估体系，用来量化场景图的质量。核心评估指标包括三个维度：场所与场所之间连接关系的准确性（PP IoU）、场所与物体之间归属关系的准确性（PO IoU），以及整张场景图综合质量的图级交并比（Graph IoU）。这里的"交并比"可以这样理解：把预测的场景图和真实的场景图各自画出来，看看它们重叠的部分占总面积的比例——重叠越多，说明预测越准确。

对比的基线模型包括多个版本的MSG变体：SepMSG-Direct（直接用编码器输出作为特征）、SepMSG-Linear（加一层线性变换）、SepMSG-MLP（加一个小型神经网络）、以及不同层数的AoMSG（1层、2层、4层的Transformer解码器版本）。

结果相当引人注目。在场所检索的准确性（Recall@1）上，HSG达到了98.39%，与最强基线AoMSG-B-4的98.61%基本持平——这说明HSG在不牺牲基础检索能力的前提下，大幅提升了层级结构的表示质量。

最显著的提升发生在图结构相关的指标上。HSG的PP IoU达到33.17，Graph IoU达到33.51，而最强的AoMSG基线（AoMSG-1）在这两个指标上的成绩分别为24.87和25.37。换句话说，HSG在场景图的整体结构质量上比最强竞争对手高出了8个多百分点。在机器学习领域，这样的提升幅度是非常实质性的进步——研究团队将其归功于双曲空间在编码层级关系方面的天然优势。

一个有趣的对照来自SepMSG-Direct：这个基线虽然PP IoU（33.19）和Graph IoU（33.67）与HSG相近，但它的PO IoU（48.58）明显低于SepMSG-Linear的55.67，而HSG的PO IoU为45.52。这说明不同的方法在不同维度上各有侧重，而HSG在各个维度上保持了较为均衡的高水准——场所级别表现优异，整体结构准确，没有出现"顾此失彼"的情况。

曲率参数的选择对性能有显著影响。研究团队发现，曲率初始值在30到250之间时，系统表现比较稳定，最优点出现在80附近。曲率太小（小于等于20），双曲空间接近于普通平直空间，失去了层级表示的能力；曲率太大（大于等于300），数值计算变得极不稳定，梯度消失，性能骤降。最终选用curv_init = 80作为默认值，并让这个参数在训练中可以自动微调。

**六、"装备检查"：每个设计选择有没有真正起到作用**

在科学研究里，一个好的设计必须经得起"逐一拆解"的考验——去掉某个组件之后，性能是否真的下滑？北京大学团队为此进行了一系列消融实验（也就是"每次去掉一个零件看车还能不能跑"的测试），结果相当清晰。

当把双曲空间的对比学习目标换回普通的欧几里得InfoNCE损失函数时，PP IoU从33.2暴跌到21.5（DINOv2-Base作为编码器时），Graph IoU也大幅下滑。Recall@1虽然仍然较高（96.4%），但图结构质量惨不忍睹。这说明即使AI在检索上依然能找到正确的照片，它对场景层级结构的理解却几乎荡然无存——欧几里得空间真的装不下层级关系。

当保留双曲空间但去掉蕴含锥损失函数时，性能下降的幅度相对温和但依然一致：PO IoU轻微下滑，说明蕴含锥损失在精细化场所与物体的归属关系上确实有贡献，但幅度比替换整个学习框架要小得多。研究团队由此得出结论：双曲空间的几何本身提供了主要的层级结构优势，而蕴含锥损失则进一步精炼了这种优势。

将曲率固定为c=1（一个较小的值）而不让其自由学习时，蕴含锥损失直接"崩溃"为零——因为在如此小的曲率下，蕴含锥的角度计算会退化，层级约束完全失效。PP IoU随之大幅下降，而Recall@1依然保持较高水平，再次印证了"检索能力"和"层级结构理解"是两件需要分别关注的事情。

投影头的维度（即把编码器输出映射到双曲空间所用向量的长度）也经过了系统测试。512维时，HSG的PP IoU为32.0；1024维时达到峰值33.2；2048维时反而下滑到29.5。相比之下，欧几里得基线模型（AoMSG-4和SepMSG-Linear）对维度的变化几乎不敏感，在512到2048之间的变化几乎微乎其微。这个差异揭示了一个规律：双曲空间对"容量"的选择更加敏感，太小会欠拟合，太大会引入冗余和优化困难，而欧几里得空间则更为"宽容"。

编码器的选择同样接受了全面对比。研究团队测试了ConvNeXt-Tiny、ConvNeXt-Base、ViT-Base、ResNet-18、DINOv2-Small、DINOv2-Large和DINOv2-Base共七种编码器。结果显示，DINOv2-Base（Meta开发的基于自监督学习的视觉Transformer模型）在综合性能上最强，PP IoU为33.17，Graph IoU为33.51。值得注意的是，DINOv2-Small的Recall@1高达98.08%，却在图结构指标上只有16.04的PP IoU——再次证明了单看检索准确率是不够的，层级结构的质量才是更难、也更有价值的考验。总体趋势是：基于Transformer的现代大模型（DINOv2系列）比CNN架构（ConvNeXt、ResNet）在双曲场景图任务上表现更好，大规模自监督预训练的特征表示与双曲空间的层级几何之间似乎存在更好的配合。

温度参数τ的影响也经过了细致测试。τ从0.5下降到0.1时，性能持续提升；在0.1时达到最优；进一步降低到0.01时性能略有下滑。在0.05到0.12的范围内，HSG表现相当稳定，说明这个参数的调节空间比较宽裕，不需要过于精细的调参工作。

**七、用眼睛验证：AI的"内心世界"是否真的有层次感**

数字上的提升固然重要，但更直观的证据来自可视化分析。研究团队通过两种方式展示了HSG在层级结构上的真实表现。

第一种方式是绘制"根节点距离分布图"。对于HSG，根节点就是双曲空间的原点；对于欧几里得基线模型，研究团队用所有训练嵌入的平均值近似作为"根节点"。然后分别计算所有场所概念和物体概念与根节点的距离，画出分布直方图。

在HSG的分布图里，场所的距离（均值约0.0584）明显小于物体的距离（均值约0.0610）——两个峰值清晰地分开，场所确实更靠近原点。这正是研究设计所期望的：场所作为更抽象的概念，应当离根更近。相比之下，AoMSG和SepMSG的分布图里，场所和物体的距离几乎完全混叠在一起，看不出任何有意义的层级分离——用普通欧几里得空间学出来的表示，对"谁比谁更宏观"这个问题毫无感知。

第二种可视化方式是追踪训练过程中嵌入在庞加莱圆盘（双曲空间的另一种等价表示，可以画在二维平面上）上的演化。在训练初期，场所和物体的点混杂地分布在圆盘中心附近；随着训练的推进，场所的点逐渐向圆盘中心靠拢，物体的点则逐渐漂移到更外围的位置；到训练结束时，两类点的分布区域出现了明显的层次分离。这个视觉上的变化过程清晰地展示了HSG是如何"学会"把层级关系编码进空间结构里的——不是靠外力强行压迫，而是在双曲几何的引导下自然形成的。

研究团队还用不同编码器骨干重复了这个可视化实验。使用DINOv2-Base时，分离效果清晰但不极端；使用ConvNeXt-Base时，分离方向甚至出现了反转（物体比场所更靠近中心），说明编码器的特征质量对双曲空间是否能正确形成层级结构有着关键影响；使用ViT-Base时，两类点的分布高度重叠，几乎没有层级感。这从侧面解释了为什么不同编码器在最终的定量指标上会出现这么大的差距。

此外，研究团队还通过定性实验展示了HSG在真实视频上的表现：用一个预训练的Grounding DINO检测器处理一段真实办公室环境的视频，HSG成功地将不同角度拍到的同一台显示器、同一张办公桌识别为同一个物体，并将它们合理地归属到对应的场所节点下，构建出一张连贯的场景图。这表明HSG不仅在训练数据集上表现优异，在训练集以外的真实世界场景里也能产生有意义的输出。

**八、这项研究还差什么，未来能走多远**

北京大学团队在论文里相当坦诚地列出了当前方法的局限性，以及他们认为最有价值的改进方向。

首先是曲率的处理方式。当前HSG虽然允许曲率在训练中自动调整，但整个系统只使用单一的均匀曲率。现实世界的场景结构并非完全均匀——不同区域的层级深度和复杂程度可能差异很大。多阶段或自适应曲率优化可能让系统更灵活地适应这种不均匀性。

其次是编码器和检测器的能力上限。HSG的最终表现与底层视觉编码器的质量高度绑定。随着更强的基础模型（比如DINOv3或更新的视觉-语言预训练模型）的出现，以及更准确的开放词汇检测器的集成，HSG的天花板有望进一步提升。

第三个方向是与下游任务的联合优化。目前HSG的场景图表示是独立训练的，尚未与机器人导航、视觉问答等具体下游任务做端到端的联合优化。如果把场景图的构建质量直接与机器人能否正确找到目标房间挂钩，可能会激发出更强的性能。

归根结底，这项研究做了一件很有意义的事情：它证明了几何空间的选择本身就是一种重要的"归纳偏置"——不同的空间形状天然地支持或阻碍不同类型的知识结构。当我们把AI理解场景的"工作空间"从平坦的欧几里得平原换成弯曲的双曲空间，AI就自动获得了一种"看层级"的视角，而这种视角在普通空间里需要消耗大量额外资源才能勉强模拟。

对普通人来说，这意味着：未来帮你在家里找钥匙的家用机器人、在医院里引导病人去正确诊室的导航系统、在博物馆里为你讲解展品的AR眼镜，或许都会因为这种"换个空间来理解世界"的思路而变得更聪明、更可靠。当AI的"心智地图"终于有了和人类直觉相匹配的层级感，它理解世界的方式才会真正接近我们自己的认知方式。

Q&A

Q1：双曲场景图（HSG）和普通场景图有什么区别？

A：普通场景图（比如MSG框架）把场所和物体都放在平直的欧几里得空间里表示，这个空间不能天然地区分"谁比谁更宏观"。HSG把场所和物体的表示搬到双曲空间里，这种空间越往外越宽广，越靠中心越"抽象"，使得场所（更宏观）自然靠近中心，物体（更具体）远离中心，层级关系被空间几何本身编码，不需要额外的标注信息。

Q2：蕴含锥损失函数解决了什么问题？

A：蕴含锥损失函数解决了"AI怎么学会场所包含物体"这个问题。它在双曲空间里为每个场所定义一个锥形区域，要求属于这个场所的物体必须落在锥形区域内，否则就产生学习惩罚。越抽象的场所锥形越宽（包容更多），越具体的概念锥形越窄，这与人类对"宏观概念包含微观概念"的直觉完全一致。

Q3：HSG在实际应用中对普通人有什么影响？

A：HSG改善的是AI对三维场景层级结构的理解能力，这对机器人导航、家用智能助手、医院导引系统、增强现实等应用都有直接影响。当AI能正确理解"这个冰箱属于厨房、厨房在一楼左侧"这类层级关系时，它才能更可靠地执行"帮我去厨房拿冰箱里的苹果"这类指令。