强化学习(RL)在大语言模型和 2D 图像生成中大获成功后,首次被系统性拓展到文本到 3D 生成领域!面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战,研究者们首次系统研究了 RL 在 3D 自回归生成中的应用!
来自上海人工智能实验室、西北工业大学、香港中文大学、北京大学、香港科技大学等机构的研究者提出了AR3D-R1,这是首个强化学习增强的文本到 3D 自回归模型。该工作系统研究了奖励设计、RL 算法和评估基准,并提出Hi-GRPO——一种层次化强化学习范式,通过分离全局结构推理与局部纹理精修来优化 3D 生成。同时引入全新基准MME-3DR,用于评估 3D 生成模型的隐式推理能力。
实验表明 AR3D-R1 在 Kernel Distance 和 CLIP Score 上均取得显著提升,达到 0.156 和 29.3 的优异成绩。
- 论文标题:Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
- 代码链接:
- https://github.com/Ivan-Tang-3D/3DGen-R1
- 论文链接:https://arxiv.org/pdf/2512.10949
强化学习应用于 3D 生成的挑战
强化学习在大语言模型(如 DeepSeek-R1)和 2D 图像生成中已被证明能够有效提升模型性能,但将 RL 应用于 3D 生成仍面临独特挑战:
- 空间复杂性更高:3D 物体需要同时保持全局几何一致性和局部纹理精细度,比 2D 图像的空间复杂性高出一个维度。
- 奖励设计困难:如何设计既能评估全局结构又能捕捉局部细节的奖励函数是关键难题。
- 现有基准局限:当前的文本到 3D 基准主要关注物体多样性,无法有效评估模型的隐式推理能力。
- 算法敏感性:3D 生成对奖励设计和 RL 算法的选择高度敏感,需要系统性的研究来指导实践。
在此前的工作中,3D 模型大多停留在「预训练 + 微调」框架,真正将 RL 引入 3D 生成的一步,还无人系统迈出。
从「推理」到「造物」:
AR3D-R1 的整体框架
AR3D-R1 构建在离散 3D 生成模型 ShapeLLM-Omni 之上,引入了一个推理驱动的 3D 生成流程:
- 先想一想:模型会先根据文本提示生成一段高层语义推理(类似 CoT),规划出物体的大致结构、关系与风格。
- 再动手造:随后,推理结果会作为「中间规划」,直接指导离散 token 的 3D 生成过程。
这让 AR3D-R1 不再是「凭本能画 3D」,而是先构思、再搭骨架、最后上细节——真正把 RL 驱动的「会想」能力,迁移到了「会造」的 3D 世界里。
奖励设计与 RL 算法的系统性研究
在奖励设计方面,研究者评估了多个奖励维度和模型选择,得出以下关键发现:
- 人类偏好对齐至关重要:与人类审美偏好对齐的奖励信号能够显著提升生成质量。
- 通用多模态模型具有鲁棒性:令人惊讶的是,通用多模态模型在评估 3D 相关属性时表现出强大的鲁棒性,有时甚至优于专门的 3D 评估模型。
在 RL 算法研究方面,研究者深入分析了 GRPO 的多个变体,包括标准 GRPO、引入 token 级平均与动态采样的 DAPO,和更偏序列级操作的 GSPO 等:
- Token 级优化更有效:相比响应级优化,token 级别的损失平均能更好地捕捉生成过程中的全局结构差异。
- 动态采样策略足以稳定训练:对于文本到 3D 生成任务,无需复杂的训练稳定技术。
- 数据规模和迭代次数的扩展均能有效提升性能:但一味堆叠 RL 迭代反而可能引入过拟合或模式崩塌,需要精细校准。
这些发现为 3D 生成中的 RL 应用提供了系统性指导。
Hi-GRPO:
层次化强化学习范式
受 3D 生成自然层次结构的启发——模型首先构建全局几何,然后精修局部纹理(这与人类 3D 感知过程一致),研究者提出了 Hi-GRPO(Hierarchical GRPO)层次化强化学习范式。
Hi-GRPO 的核心思想是在单次迭代中联合优化层次化 3D 生成:
- 全局规划阶段:模型首先针对文本提示进行全局结构规划,生成高层语义推理来指导粗糙形状生成。
- 局部精修阶段:模型接收初始推理结果和原始文本提示,生成纹理精细化的 3D 物体。
- 专用奖励集成:为粗糙阶段和精修阶段分别设计专门的奖励模型集成,计算组相对奖励来优化两个阶段。
通过这种层次化设计,Hi-GRPO 能够在保证全局几何一致性的同时,精细优化局部纹理细节,实现从粗到精的渐进式 3D 生成。
MME-3DR:
评估 3D 生成推理能力的新基准
现有的文本到 3D 基准,更多考察的是物体多样性,而不是推理能力。模型在简单 prompt 上表现不错,但一遇到复杂要求就频频「翻车」。为此,论文提出了全新的推理型 3D 基准 MME-3DR,覆盖五大高难类别:
- 空间与结构几何(复杂构型、相对位置关系)
- 机械可供性(能不能「看起来就能动起来」)
- 生物与有机形状
- 依赖世界知识的罕见物体
- 风格化表达(风格、材质、抽象度的综合控制)
在这一更苛刻的场景下:传统 text-to-3D 模型普遍出现崩塌,要么结构错乱,要么风格跑偏。而 RL 训练之后的 AR3D-R1 在五大类别上都有明显提升,同时在多个 benchmark 上超越 Trellis 等模型,展现出更强的隐式 3D 推理能力。
定性定量分析
定量实验结果表明,AR3D-R1 在多个指标上取得了显著提升:
- Kernel Distance 达到 0.156,表明生成的 3D 物体分布与真实数据分布高度接近。
- CLIP Score 达到 29.3,表明生成结果与文本提示的语义对齐质量显著提升。
- 在 Toys4K 等现有数据集和新引入的 MME-3DR 基准上均展现出优越性能,在几何一致性和纹理质量方面均有明显改进。
定性实验中,研究者展示了 AR3D-R1 在推理过程中清晰的从粗到精进展。模型首先构建合理的全局几何结构,然后逐步添加细节纹理,生成高质量的 3D 物体。可视化结果验证了 Hi-GRPO 层次化范式和专用奖励集成策略在提升 3D 生成质量方面的有效性。
AR3D-R1 的成功标志着强化学习在文本到 3D 生成领域的首次系统性突破,为构建更智能、更具推理能力的 3D 生成模型开辟了新方向。未来,这样的能力可以自然延伸到:
- 具身智能与机器人:从自然语言到 3D 场景再到交互决策。
- 游戏与内容创作:快速生成结构合理、细节丰富的 3D 资源。
- AR/VR 与数字孪生:在复杂约束和多模态反馈下进行 3D 推理与生成。
热门跟贴