打开网易新闻 查看精彩图片

机器之心发布

近日,全球具身世界模型权威基准评测 WorldArena 正式更新最新榜单。Manifold AI 流形空间研发的世界模型 Worldscape 0.2,凭借其在物理规律遵循与多源交互理解上的突破取得 WorldArena 榜单全球第一,充分展现了国产世界模型在复杂动态场景生成与具身控制中的高精度、强泛化与物理可信度。与其同场竞技的包括英伟达谷歌等国外巨头和星动纪元、极佳视界等国内具身智能公司。

WorldArena 是首个面向具身世界模型的「功能 + 视觉」统一评测体系,由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出。目前已经成为具身世界模型领域的国际权威公开评测标准。

WorldArena 榜单除了视觉质量,评测维度还包含动作质量、内容一致性、物理遵循性、3D 准确性、可控性,充分评估各家模型对物理规律的理解、动作轨迹的精度、多步决策的稳定,这些正是具身大脑最应关注的能力。另外,WorldArena 还包含了世界模型作为数据引擎(Data Engine)、策略评估器(Policy Evaluator)和动作规划器(Action Planner)等三个下游任务的全面评测,最后将上述客观评测结合人类主观评估,计算出高度综合的 EWMScore 指数。

打开网易新闻 查看精彩图片

WorldScape 0.2 的 WorldArena 登顶并非偏科取胜,而是同时展现出了综合素质与突出长板。具体表现如下:

  • 综合感知得分稳居榜首:在包含视觉质量、运动质量、内容一致性、可控性等多维度的极其严苛的综合感知评估中,WorldScape 0.2 拿下了综合第一,而且在各项能力之间取得了完美的平衡,没有明显的 “短板效应”,能够全方位支撑复杂的长程具身任务。
  • 物理规律遵循断层第一:以往的生成模型往往 “重视觉、轻物理”,生成的行为仅仅是看起来合理,却违背真实世界的物理约束, WorldScape 0.2 拿下了该项指标的最高分且大幅领先。这说明模型真正 “内化” 了重力、摩擦力、碰撞与受力反馈等力学逻辑,其生成的场景不仅 “像”,而且在物理上 “对”,完全具备了作为高可靠物理模拟器指导真实机器人作业的能力。
  • 卓越的三维空间理解力:模型在 3D 准确性这一高难度指标上同样表现出了极高水准,表明 WorldScape 0.2 在处理复杂的机械臂操控、视角切换和物体遮挡时,依然能够维持极高精度的三维空间几何结构,避免了传统视频模型常见的 “空间扭曲” 或 “二维纸片化” 现象,为多源交互提供了坚实的空间拓扑基础。

打开网易新闻 查看精彩图片

一个月前,登顶通用世界模型权威榜单 WorldScore

一个月前,国际最权威的通用世界模型评测榜单 WorldScore 迎来更新,Manifold AI 自研模型 WorldScape 0.1 就在 WorldScore 强势登顶(WorldScore-Static 和 WorldScore-Dynamic 全部两项指标均排名第一),在全球同台竞技中拿下第一并保持至今。

打开网易新闻 查看精彩图片

在世界模型的全球竞逐中,WorldScore 被公认为检验通用世界模型基座实力的 “终极试金石”。该基准从各类可控性、生成质量等多类维度,考验模型在数千个不同场景的生成能力,对模型进行严苛的极限测试。面对这一高门槛,Manifold AI 流形空间研发的 WorldScape 0.1 模型强势突围,总分稳居全球榜首。与其同场竞技的包括李飞飞团队、MIT、阿里、Runway、智谱、MiniMax、腾讯混元等。

长久以来,世界模型的通病是 “重渲染、轻规律”,生成的视频看似精美,但在涉及复杂场景的运动、多步控制时,往往破绽百出。而 WorldScape 恰恰在最难攻克的物理和交互指标上,拉开了显著的领先优势,从而成功登顶。这意味着,WorldScape 已经成功跨越了 “像不像” 的视觉表象,真正触及了 “对不对” 的底层物理逻辑。这不仅是一次分数的超越,更是国产世界模型在真实世界执行力上的一次标志性跨越。

打开网易新闻 查看精彩图片

更难能可贵的是,WorldScape 模型参数规模是排名前列其他模型的 10%,展现了该模型全球最佳的空间智能密度和推理实时性。也为落地到物理 AI 的边缘侧提供了技术支撑。

不到一个月再次进化,MoE 开启世界模型 Scaling Law

近年来,MoE 架构在大语言模型中取得了巨大成功,它使模型能够以稀疏激活的方式高效吸收海量知识,在同等计算预算下大幅提升语言理解与生成能力。MoE 的底层原理是通过引入多个专精的子网络与动态门控机制,在每次前向计算中仅激活与输入最匹配的少数专家,从而在不显著增加计算成本的前提下将模型参数规模提升数个量级。

将 MoE 拓展至世界模型尤为重要:世界模型需要统一建模物理规律、多模态感知、交互决策等高度异质的场景,而 MoE 可以让不同专家分别负责视觉动态、移动交互、操作推理等不同子空间或任务模式,并通过门控自适应地整合它们,从而在保持整体参数可扩展性的同时,避免不同知识领域的相互干扰,为实现通用、连贯的世界模拟提供了关键的结构化机制。短短不到一个月,WorldScape 从 0.1 进化到 0.2 并再次登顶,其核心驱动力正式来自 MoE,具体来说体现在三个方面:

打开网易新闻 查看精彩图片

1.多专家协同泛化:从统一交互到多专家协同的泛化基座

WorldScape 0.2 突破单一任务边界,构建支持多源控制信号协同学习的统一架构。在延续基础空间交互能力的同时,将机械臂精细操控等复杂具身行为纳入多专家统一生成范式,实现不同控制模态间的相互赋能与联合优化。该框架具备原生可扩展性,为迈向 “世界模型驱动的通用智能” 提供可插拔、可泛化的底层技术路径。

2.统一空间表征:从几何约束到多源知识融合的元空间建模

WorldScape 0.2 超越单一几何先验,将几何拓扑、语义理解与物理规律等多维异质表征进行结构化对齐,并在统一的隐式元空间中完成跨模态知识融合。这种表征耦合机制使模型在长程交互中不仅能维持空间拓扑稳定,更能实现语义连贯与物理合理的深度一致,从根本上升级了世界结构的生成可信度。

3.多阶段持续学习:从视觉保真到物理遵循的范式跃迁

WorldScape 0.2 采用渐进式分阶段训练策略,通过海量世界知识注入与异源控制信号的深度耦合,显著强化生成内容对真实物理规律的遵循能力。模型不再局限于 “画面流畅”,而是追求 “运动符合力学逻辑与场景常识”,在全球权威具身基准 WorldArena 中斩获第一,实现从 “视觉拟真” 向 “物理可信” 的关键跨越。

Manifold AI 在多个主流评测模型中的独占鳌头表现,以及其模型 scaling 能力的验证,让我们相信世界模型的 GPT3 时刻即将到来。