Meta提出“可持续思维链”，让大模型在连续潜空间中推理｜大模型日报|meta|可持续思维链|大模型|推理|模型日报|高斯

今日值得关注的大模型前沿论文

北大团队提出「自定义漫画生成」框架
UniReal：通过学习真实世界动态实现通用图像生成和编辑
苹果团队提出「可扩展视频生成」方法
利用扩散 Transformer 进行视频运动迁移
ObjCtrl-2.5D：无需训练的「图生视频」目标控制方法
Moxin-7B：一个完全开源的大语言模型
微软研究院：创建多用途、高质量 3D 资产
智源推出视觉条件多视角扩散模型
Turbo3D：超快速文本到 3D 生成
Meta 提出“可持续思维链”：让大语言模型在连续潜空间中推理
GameArena：通过实时电脑游戏评估 LLM 推理

想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术分享群」。

1.北大团队提出「自定义漫画生成」框架

故事可视化是从文本描述创建视觉叙事的任务，文本到图像的生成模型已经取得了进展。然而，这些模型往往缺乏对角色外观和互动的有效控制，尤其是在多角色场景中。

为了解决这些局限性，来自北京大学的研究团队及其合作者提出了一项新任务：自定义漫画生成，并提出了 DiffSensei，这是一个专门用于生成动态多角色控制漫画的创新框架。DiffSensei 集成了基于扩散的图像生成器和多模态大语言模型（MLLM），后者是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术，可无缝整合字符特征，从而在不直接传输像素的情况下实现精确的布局控制。此外，基于 MLLM 的适配器还能调整角色特征，使其与特定面板的文本线索保持一致，从而灵活调整角色的表情、姿势和动作。

他们还提出了 MangaZero，这是一个专为这项任务定制的大型数据集，包含 43264 页漫画和 427147 个注释面板，支持跨连续帧的各种角色互动和动作的可视化。广泛的实验证明，DiffSensei 的性能优于现有模型，通过实现文本适应性角色定制，标志着漫画生成技术的重大进步。

论文链接：

https://arxiv.org/abs/2412.07589

项目地址：

https://jianzongwu.github.io/projects/diffsensei/

2.UniReal：通过学习真实世界动态实现通用图像生成和编辑

来自香港大学和 Adobe Research 的研究团队提出了 UniReal，这是一个旨在解决各种图像生成和编辑任务的统一框架。现有的解决方案往往因任务而异，但都有一个基本原则：在捕捉视觉变化的同时保持输入和输出之间的一致性。最近的视频生成模型有效地平衡了帧间的一致性和变化，受此启发，他们提出了一种统一的方法，将图像级任务视为不连续的视频生成。

具体来说，他们将不同数量的输入和输出图像视为帧，从而实现对图像生成、编辑、定制、合成等任务的无缝支持。虽然是为图像级任务设计的，但他们利用视频作为通用监督的可扩展来源。UniReal 可从大规模视频中学习世界动态，在处理阴影、反射、姿态变化和物体交互方面展示了先进的能力，同时还为新型应用展示了新兴能力。

论文链接：

https://arxiv.org/abs/2412.07774

项目地址：

https://xavierchen34.github.io/UniReal-Page/

3.苹果团队提出「可扩展视频生成」方法

视频生成领域已经取得了令人瞩目的进步，但我们仍然迫切需要一个清晰、系统的方法来指导开发鲁棒、可扩展的模型。在这项工作中，来自苹果公司和加州大学的研究团队进行了一项全面的研究，系统地探讨了模型架构、训练方法和数据整理策略之间的相互作用，并提出了一种名为 STIV 的简单、可扩展的文本、图像条件视频生成方法。

他们的框架通过帧置换将图像条件整合到扩散 Transformer（DiT）中，同时通过联合图像-文本条件无分类器引导整合文本条件。这种设计使 STIV 能够同时执行文本到视频（T2V）和文本到图像到视频（TI2V）任务。此外，STIV 还能轻松扩展到各种应用中，如视频预测、帧插值、多视图生成和长视频生成等。通过对 T2I、T2V 和 TI2V 进行全面的消融研究，STIV 尽管设计简单，却表现出了强大的性能。

分辨率为 512 的 8.7B 参数模型在 VBench T2V 上达到 83.1，超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在分辨率为 512 的 VBench I2V 任务中，同样大小的模型也取得了 90.1 的 SOTA 成绩。通过提供用于构建尖端视频生成模型的透明且可扩展的方法，他们旨在增强未来研究的能力，并加快实现更通用、更可靠的视频生成解决方案。

论文链接：

https://arxiv.org/abs/2412.07730

4.利用扩散 Transformer 进行视频运动迁移

来自牛津大学和 Snap 的研究团队提出了 DiTFlow，这是一种将参考视频的运动迁移到新合成视频的方法，专为扩散 Transformer（DiT）而设计。他们首先用预先训练好的 DiT 处理参考视频，分析跨帧注意力图并提取称为注意力运动流（AMF）的片段运动信号。

他们以一种基于优化、无需训练的方式指导潜隐去噪过程，利用他们的 AMF 损失优化潜隐，生成再现参考视频运动的视频。他们还将优化策略应用于 Transformer 位置嵌入，从而提高了零样本运动迁移能力。他们将 DiTFlow 与最近发布的方法进行了对比评估，结果显示 DiTFlow 在多项指标和人工评估方面均优于所有方法。

论文链接：

https://arxiv.org/abs/2412.07776

项目地址：

https://ditflow.github.io/

5.ObjCtrl-2.5D：无需训练的「图生视频」目标控制方法

这项研究旨在图像到视频（I2V）生成过程中实现更精确、更多用途的目标控制。目前的方法通常使用二维轨迹来表示目标对象的空间运动，这种方法往往无法捕捉用户的意图，而且经常产生不自然的结果。

为了增强控制效果，南洋理工大学研究团队提出了 ObjCtrl-2.5D，这是一种无需训练的目标控制方法，它使用从带有深度信息的二维轨迹扩展而来的三维轨迹作为控制信号。通过将物体运动建模为相机运动，ObjCtrl-2.5D 将三维轨迹表示为相机姿态序列，从而无需训练即可使用现有的相机运动控制 I2V 生成模型（CMC-I2V）进行物体运动控制。为了使最初为全局运动控制而设计的 CMC-I2V 模型适应于处理局部物体运动，他们引入了一个模块，将目标物体从背景中分离出来，从而实现独立的局部控制。此外，他们还设计了一种有效方法，通过跨帧共享对象区域内的低频翘曲潜影，实现更精确的对象控制。

大量实验证明，与无需训练的方法相比，ObjCtrl-2.5D 能显著提高物体控制精度，与使用二维轨迹的基于训练的方法相比，ObjCtrl-2.5D 能提供更多样化的控制能力，实现物体旋转等复杂效果。

论文链接：

https://arxiv.org/abs/2412.07721

项目地址：

https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/

6.Moxin-7B：一个完全开源的大语言模型

虽然开源大语言模型（LLM）为创新和研究提供了前所未有的机会，但 LLM 的商业化也引发了对透明度、可重复性和安全性的担忧。许多开源 LLM 未能满足基本的透明度要求，因为它们未公开训练代码和数据等重要组件，而且有些 LLM 在声称“开源”的同时还使用了限制性许可证，这可能会阻碍 LLM 的进一步创新。

为了缓解这一问题，来自美国东北大学的研究团队及其合作者推出了 Moxin-7B，它是一个完全开源的 LLM，是根据模型开放性框架（MOF）开发的。MOF 是一个等级分类系统，根据模型的完整性和开放性对人工智能模型进行评估，坚持开放科学、开放源代码、开放数据和开放访问的原则。通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点，他们的模型达到了 MOF 分类的最高级别“开放科学”。

实验表明，与流行的 7B 参数模型相比，他们的模型在零样本评估中取得了更优越的性能，在少样本中也具有竞争力。

论文链接：

https://arxiv.org/abs/2412.06845

7.微软研究院：创建多用途、高质量 3D 资产

微软研究院团队提出了一种新颖的 3D 生成方法，用于创建多用途和高质量的 3D 资产。该方法基于统一的结构化潜在（SLAT）表征，它允许解码为不同的输出格式，如辐射场、3D 高斯和网格。这是通过将稀疏填充的 3D 网格与从强大的视觉基础模型中提取的密集多视角视觉特征相结合来实现的，既能全面捕捉结构（几何）和纹理（外观）信息，又能在解码过程中保持灵活性。

他们采用为 SLAT 量身定制的整流 transformers 作为 3D 生成模型，并在包含 500K 个不同对象的大型 3D 资产数据集上训练参数多达 20 亿参数的模型。他们的模型可在文本或图像条件下生成高质量的结果，大大超越了现有的方法，包括最近类似规模的方法。他们展示了灵活的输出格式选择和本地 3D 编辑功能，这是以前的模型所不具备的。

论文链接：

https://arxiv.org/abs/2412.01506

项目地址：

https://trellis3d.github.io/

8.智源推出视觉条件多视角扩散模型

近期的 3D 生成模型通常依赖于有限规模的 3D“黄金标签”或 2D 扩散先验来创建 3D 内容。然而，由于缺乏可扩展的学习范例，它们的性能受到 3D 先验的限制。

在这项工作中，北京智源人工智能研究院团队推出了一个视觉条件多视角扩散模型——See3D，该模型在大规模互联网视频上训练，可用于开放世界的 3D 创作。该模型的目的是通过从海量且快速增长的视频数据中获取视觉内容来获取 3D 知识。

为实现这一目标，他们首先使用一个拟议的数据整理管道来扩大训练数据的规模，该管道可自动过滤掉源视频中的多视角不一致和观察不足的内容。这样就得到了一个高质量、丰富多样的大规模多视角图像数据集，即 WebVi3D，其中包含来自 1600 万个视频片段的 3.2 亿帧。然而，从没有明确 3D 几何图形或相机姿态标注的视频中学习通用 3D 先验并不容易，而且为网络规模的视频标注姿态的成本过高。为了消除对姿势条件的需求，他们引入了一种创新的视觉条件——通过在掩码视频数据中添加随时间变化的噪声而生成的纯 2D 归纳视觉信号。最后，他们通过将 See3D 集成到基于翘曲的高保真 3D 生成流水线中，引入了新颖的视觉条件 3D 生成框架。

他们在单一和稀疏重建基准上进行的数值和视觉比较表明，See3D 在经济高效且可扩展的视频数据上经过训练后，实现了显著的零样本和开放世界生成能力，明显优于在昂贵且受限的 3D 数据集上训练的模型。

论文链接：

https://arxiv.org/abs/2412.06699

项目地址：

https://vision.baai.ac.cn/see3d

9.Turbo3D：超快速文本到 3D 生成

来自卡内基·梅隆大学、麻省理工学院和 Adobe Research 的研究团队提出了 Turbo3D，这是一种超快速文本到 3D 系统，能够在一秒内生成高质量的高斯拼接资产。

Turbo3D 采用快速的 4 步 4 视图扩散生成器和高效的前馈高斯重构器，两者均在潜空间运行。4 步 4 视图生成器是通过新颖的双教师方法提炼出的学生模型，该方法鼓励学生从多视图教师那里学习视图一致性，从单视图教师那里学习照片逼真度。

通过将高斯重构器的输入从像素空间转移到潜空间，他们消除了额外的图像解码时间，并将 Transformer 序列长度减半，从而实现最高效率。与之前的基线方法相比，他们的方法展示了卓越的 3D 生成效果，而运行时间仅为它们的一小部分。

论文链接：

https://arxiv.org/abs/2412.04470

项目地址：

https://turbo-3d.github.io/

10.Meta 提出可持续思维链：让大模型在连续潜空间中推理

大语言模型（LLM）仅限在“语言空间”中进行推理，通常用思维链（CoT）来表达推理过程，从而解决复杂的推理问题。然而，来自 Meta 和加州大学圣地亚哥分校的研究团队认为，语言空间并不总是最佳推理空间。例如，大多数单词 token 主要是为了保持文本的连贯性，对推理并不重要，而一些关键 token 则需要复杂的规划，给 LLM 带来了巨大的挑战。

为了探索 LLM 在不受限制的潜空间中进行推理的潜力，而不是使用自然语言，他们提出了一种新的范式——可持续思维链（Coconut）。他们利用 LLM 的最后一个隐藏状态来表示推理状态（称为“连续思维”）。他们没有将其解码为单词 token，而是将其反馈给 LLM，作为直接嵌入连续空间的后续输入。实验表明，Coconut 可以在多项推理任务中有效增强 LLM。

这种新颖的潜在推理范式带来了新兴的高级推理模式：连续思维可以编码多个可供选择的下一步推理步骤，使模型能够执行广度优先搜索（BFS）来解决问题，而不是像 CoT 那样过早地进行单一的确定性路径。在某些逻辑推理任务中，Coconut 的表现优于 CoT，因为在规划过程中需要大量的回溯，而在推理过程中则需要较少的思考 token。

论文链接：

https://arxiv.org/abs/2412.06769

11.GameArena：通过实时电脑游戏评估 LLM 推理

评估大语言模型（LLM）的推理能力是一项挑战。现有的基准通常依赖于静态数据集，而静态数据集容易受到数据污染，并可能随着时间的推移而饱和；或者依赖于二进制的实时人类反馈，而这种反馈会将推理能力与其他能力混为一谈。尽管动态基准 Chatbot Arena 可评估真实世界环境中的开放式问题，但在评估特定推理能力方面缺乏精细度。

加州大学团队提出了 GameArena，这是一个动态基准，旨在通过与人类的互动游戏来评估 LLM 的推理能力。GameArena 由三个游戏组成，旨在测试特定的推理能力（如演绎推理和归纳推理），同时让参与者保持娱乐和参与。

他们对游戏数据进行回顾性分析，以揭示 LLM 的基本推理过程，并测量他们的细粒度推理能力。他们收集了 2000 多场游戏会话，并对五种 SOTA 的 LLM 的各种推理能力进行了详细评估。他们对 100 名参与者进行的用户研究表明，与 Chatbot Arena 相比，GameArena 提高了用户参与度，首次实现了在自然环境中收集逐步 LLM 推理数据。

论文链接：

https://arxiv.org/abs/2412.06394