智源悟界 · Emu3.5 重塑世界模型格局：首提多模态 Scaling 范式，AI 理解世界再进化|scaling|智源悟界|模态|深度思考模型

再次刷新世界模型天花板。

世界模型赛道又卷出了新高度。

今天，北京智源人工智能研究院（BAAI）发布大规模多模态世界模型“悟界·Emu3.5”，它不仅能以惊人的逼真度模拟复杂的动态物理世界，还揭示了“多模态Scaling范式”的存在。

话不多说，让我们先看效果。

•世界探索

•具身操作

•视觉指导

输入Prompt “如何制作虾仁芹菜饺子”，模型输出从原料、拌馅儿、包饺子、煮饺子到最后上菜的过程，按步骤、有逻辑、符合事实，而且图像生动逼真。

•视觉故事

•图像编辑和生成

从OpenAI 的Sora到Goolge DeepMind 的Genie，从Yann LeCun的JEPA到李飞飞团队的Marble，巨头菁英们纷纷入局，已经充分证明了世界模型的潜力。

然而，当视觉的“逼真度”趋于极限，一个更根本的问题浮出水面：

是否存在一条统一、简洁且可规模化扩展的路径，从第一性原理出发，让模型从海量的多模态数据中，自主学习到世界运行的内在因果与规律，让模型真正（以自己的方式）掌握我们这个物理世界运行的根本规律？

这正是智源研究院想要回答的问题。

悟界·Emu3.5：大道至简与规模化的力量

2024年10月，智源发布了原生多模态世界模型“悟界·Emu3”，该模型基于单个Transformer模型进行“下一个token预测”，无需扩散模型或组合方法，实现了图像、文本、视频的大一统。模型一经上线便在技术社区引发热议。

不过，Emu3的成功也引出了更多值得探讨的议题——模型如何高效学习长视频？如何实现通用的多模态交互？如何在万亿乃至更多 token 下高效推理？

Emu3.5继承并深化了Emu3的技术哲学：基于一个极其简单、统一的自回归预测目标“下一状态预测（Next-State Prediction，NSP）”，加上一个足够通用的模型架构，并在海量的多模态数据上充分训练。

而答案，也自动涌现。

1.原生多模态统一架构

悟界·Emu3.5是一个单一的34B 稠密Transformer模型。不同模态的信息，从输入端开始便被统一编码为离散的Token序列。整个处理过程都是在一个端到端的、自回归框架内原生完成，实现了真正的模态统一。

2.“预测下一状态”的单一目标

Emu3.5的训练目标只有一个：预测交错的视觉-语言序列下一个最有可能的状态（State）。这个目标看似简单，却迫使模型学会洞察现实世界如何运行。正如 LLM通过预测“下一个token”来学习人类语言，Emu3.5 通过预测“下一个状态”，学会了动态物理世界的“语法”。

3.超 10 万亿 Token 的多模态数据集

智源Emu团队构建了一个超过 10 万亿 token 的多模态数据集。其中，最关键的组成部分是训练时长总计约 790 年的视频，以及这些视频对应的语音转录文本，两者合在一起构成了视频-文本交错数据（Video-Text Interleaved Data）。

通过将视频帧与其对应的语音转录文本交错排列进行训练，模型能沉浸式地接触到时空、物理、因果等世界信息。

4.首次揭示多模态Scaling范式

Emu3.5的技术报告指出，随着预训练计算量的持续增加，模型在分布外（Out-of-Distribution，OOD）的全新任务上的错误率呈现出可预测的、平滑的下降曲线。这意味着模型学到的世界知识，能够稳定地泛化至训练数据之外的未知领域。

悟界·Emu3.5 的优化过程平滑稳定，并在多个验证集上展现出强大且一致的泛化表现

从 Emu3 到 Emu3.5，模型规模从 8B 增加到 34B，视频数据训练量从 15 年扩展至 790 年，研究人员观察到一系列核心指标，包括时序一致性、跨模态语义推理、具身交互规划等核心指标，均有了显著提升。

这一发现的重要性，不亚于当年GPT-3论文揭示语言模型Scaling Law的情景。

Scaling Law之所以重要，在于进步是可预测的，不再需要“撞大运”式地调整模型结构或训练技巧，只要持续增加投入，模型的性能就会稳定提升。

对于企业和研究机构而言，多模态Scaling范式的存在，意味着世界模型的研究也能够从“炼金术”时代进入“工程学”时代。

如果投入产出比是可计算的，无疑会极大地增强整个行业对大规模投入世界模型研发的信心。

开启多模态世界模型的新时代

世界模型之所以成为必争之地，在于其战略意义：谁掌握了最强的世界模型，谁就掌握了通往通用机器人、L5自动驾驶乃至AGI的钥匙。

Emu3.5提出的“原生多模态+单一自回归”的技术范式，以及其所揭示的多模态Scaling范式，为整个领域提供了一条清晰的进化路线。

这也预示着，接下来的世界模型竞赛，将不再仅仅是生成视频的质量比拼，而是模型规模、数据规模、对物理世界理解深度等等的全方位的竞争。

我们正站在一个新时代的门槛上。智源悟界·Emu3.5，或将成为推动机器从认知到行动、从虚拟走向现实的那座关键里程碑。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

智源悟界 · Emu3.5 重塑世界模型格局：首提多模态 Scaling 范式，AI 理解世界再进化

热搜

热门跟贴

热搜

热门跟贴

相关推荐

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

你刷到的视频是真的么？用物理规律拆穿Sora谎言

大模型产业化最好的时代，中国AI「杀死」了参数崇拜

预测下一个像素还需要几年？谷歌：五年够了

高效智能体幕后推手是谁？一篇综述带你从记忆×工具学习×规划看透

面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

从平面几何出发：形式化验证如何驱动MLLM的推理能力跃迁

中美AI同步加速：47天30次更新，中国AI的最强主场究竟在哪？

AI时代的认知裂谷与K型分化：你是那1%吗？

谷歌高管放话：这两类AI初创公司，别轻易涉足了

VL-LN Bench：模拟「边走边问找具体目标」的真实导航场景

清华×北大最新Cell：推出AI生成模型PocketXMol，将新药研发统一为“原子级”定制

行业最大规模具身数据集：10Kh RealOmni-Open DataSet

行业最大规模具身数据集！出自简智机器人GenRobot.AI

在这个追求速成的时代，请允许自己酝酿一会儿

启动机器后里面有曲别针，立马开始跳舞，大学生解释下原理！

AI上春晚：一场十四亿人的验收

理解与尊重比协议更重要：扎哈罗娃眼中的中俄关系底层逻辑

他们在1993年就提出了Scaling Law

人类进化缺陷之谜，为什么我们浑身都是bug？缺陷其实才是优势