CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作|cvpr|推理|新论文|清华联合美团|点云|知名企业|轨迹

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

为此，清华大学联合美团研究团队推出 3DThinker—— 首个 3D 版的「think with image」！

论文地址：https://arxiv.org/pdf/2510.18632
代码地址：https://github.com/zhangquanchen/3DThinker

接下来，就来看看 3DThinker 是如何做的。

从「think with image」到「think with 3D」

多模态大模型的推理能力提升一直以来是研究的重点和热点。人类往往能够根据几张拍摄的 RGB 图像中推断空间关系，而当前多模态大模型在空间理解任务上表现较弱。背后的核心原因在于多模态大模型缺乏对图像中几何信息的提取能力。

为解决此问题，之前的方法可以分为两类：

依赖纯文本或二维视觉线索的强推理（例如进行认知图的推理），这类方法往往依赖于繁琐的数据标注；
通过输入增强（例如引入深度图、点云等先验信息），这类方法往往依赖于外部工具调用，不是内蕴的模型能力，且推理存在负担。

而 3DThinker 提出了一种全新的思路，在无需 3D 标注（例如点云）、无需外部工具的情况下，让模型在推理过程中内蕴地「想象」三维场景。

具体来说，该框架让模型在生成推理链时，自动插入一段紧凑的隐变量，作为其脑内构建的三维场景表征，这段生成的表征通过蒸馏 3D 基础模型（VGGT）来获得。

核心思路：二段式学习用 3D 思考

3DThinker 提出了双阶段的训练策略来完成潜空间对齐，包括：(i) 监督训练过程中，将预训练的 3D 特征蒸馏进入模型推理路径，实现模型从二维数据的几何信息提取，而不依赖于任何先验；(ii) 强化训练过程中，在保持 3D latent 稳定的同时，仅仅依赖结果信号优化整个采样轨迹，从而实现模型的能力飞跃。

S1：以 3D 基础模型为指导，建立模型推理行为

在一阶段的监督训练中，首先构造了携带 3D special token 的 cot 数据，基于该数据进行监督训练，训练过程中，3DThinker 将对所有 special token 所对应的 3D latent（last layer hidden state）通过 projetor 映射到 VGGT 的潜空间，并将两者的对齐作为第一项损失函数：

其中，projector 基于堆叠 6 层 MLP 实现三次特征维度映射，具体框图如下：

而第二项损失函数是除去 special token 后的文本交叉熵损失：

其中，第一项损失函数在于保证 3D latent 的表征对齐；第二项在于保证自然语言的连贯性嵌入。

S2：以结果信号为基础，优化含 3D 意象的轨迹

在一阶段后，已经初步实现了模型 think with 3D 的表征对齐；接下来，基于强化学习，在只有结果信号的情况下，优化整条采样轨迹，包括其中的 3D latent。

具体来说，3DThinker 设计了一个 3D latent 对齐的奖励：

也就是说，3DThinker 会提取自回归生成的 3D latent，并于 VGGT 特征保持一致性，从而保证 RL 采样过程中不丢失几何表达。

另一方面，3DThinker 也参照先前方法的 outcome-based RL 保持了结果的二值化奖励以及格式奖励，最后基于 GRPO 进行优化。

提升到新高度的结果

论文在多个空间理解的 BMK 上验证了 3DThinker 的效果。

方法首先在 MindCube 的 10K 数据上构造了带有 3D special token 的推理链数据，并基于两个阶段进行训练，下表报告了训练后的模型效果，在 MindCube-Tiny 上，针对不同尺寸的模型，相比 base 整体提升了 51.8% 到 108.8%；在 Ego3D-Bench 上，则提升了 18.1% 到 36.9%。