跑赢谷歌英伟达，这款中国世界模型凭什么？|世界模型|动作|序列|时序|机器人|知名企业|神经网络|英伟达|谷歌

提交结果那天，朱磊团队并不确定评审会怎么打分。他们手里的模型参数量只有50亿，而榜单上的对手们，动辄百亿甚至千亿参数。几天后，WorldArena公布Track-1最终排名：开源版本BLM以64.54分拿下全球第一，闭源版本BWM-Fast以67.87分位列总榜第二。排在前面的，是Google、NVIDIA、高德、智元机器人、生数科技、极佳视界、流形空间、北京人形机器人创新中心。

这个消息很快在AI圈传开了。反应出奇一致——意外。毕竟当下主流的叙事是“算力即正义”，模型参数越大、训练数据越多、算力集群越庞大，才越有胜算。一个只有50亿参数、基于阿里巴巴开源Wan2.2-TI2V-5B视频生成模型做出来的系统，怎么就把一堆“大块头”给超了？

要回答这个问题，得先搞清楚世界模型到底在解决什么。打个比方：你给AI一张照片，再告诉它“把杯子放到桌上”，它就能推演出整个动作过程的视频。这不是简单的画面预测，而是让AI理解力和运动的关系，理解物体在三维空间里怎么交互。有了这种能力，机器人就不用在真实世界里一次次试错，而是在虚拟环境里先把动作“彩排”无数遍。

这件事的重要性，从2026年的资本热度就能看出来。图灵奖得主Yann LeCun和谢赛宁合创AMI Labs，据多家媒体报道融资规模达到10亿美元级别。李飞飞的World Labs持续加码。贝索斯成立Project Prometheus押注制造业AI。具身智能还被列入“十五五”未来产业规划。政策加资本双重驱动，全球科技巨头都在往这条赛道里挤。

但这条赛道的竞争方式，近两年明显走向了“军备竞赛”：模型参数越来越庞大，训练数据越堆越多，算力卡集群越拉越长。BWM团队的路线正好相反——他们不靠堆数据和拼算力，而是靠架构创新和数据效率来取胜。具体拆开看，这条技术路线有三个层面的创新。

第一层是架构选择。BWM采用了DiT架构，用注意力机制替代了传统的卷积骨干网络。处理长视频序列时，这种架构能捕捉更远距离的时空依赖关系——模型在推演第100帧画面时，还能记住第1帧里杯子放在哪个位置。团队还引入了动态记忆机制，进一步缓解长时序推演中的“灾难性遗忘”问题。

第二层是场景初始化策略。首帧引导机制利用初始帧信息来锚定场景，让视频生成保持时空连贯性。第三层则是动作控制。双通路动作控制调制把机器人动作轨迹精准映射到视频生成过程中，实现动作可控的物理仿真。三项创新从场景初始化、长时序记忆建模到动作响应控制协同工作，让模型在时空连贯性、动作可控性和物理一致性上全面占优。

榜单成绩之外，更值得关注的是六类具身任务场景的测试结果。这些场景每一类都在考验模型对不同物理交互的建模能力。空间重排任务要求按大小排列积木、堆叠碗碟，挑战的是多物体空间排序与堆叠稳定性。BWM在这里保持了物体身份与目标布局，能维持稳定堆叠接触，还能预测自适应夹爪控制。

铰链交互任务包括打开微波炉、翻开笔记本电脑，考验的是铰链约束下的开合动力学，以及旋转过程中物体几何形态的连贯性。BWM在长时序推演中保持了物体状态的持久性。精细操作更难——拧开关、挂杯子、按铃铛、盖印章，接触区域极小，状态变化必须精确，要求模型理解物体“能怎么用”。

双臂协同任务涉及双手传递积块、交接麦克风，挑战在于双臂同步运动和近距离交接中的碰撞避免。BWM成功建模了同步双臂运动，保持物体连续性。长程放置任务要求把物体放入柜子、瓶子扔进垃圾桶，难点是长时序场景一致性和遮挡下的物体漂移。测试中BWM在遮挡场景下物体不会“凭空消失”。

分布外泛化任务最能说明问题。团队用GPT-Image-2生成了从未见过的初始场景，叠加原始机器人动作序列让BWM推演结果。面对物体外观的剧烈变化，模型仍然保持了动作驱动的动力学一致性和交互连贯性。这意味着BWM不是靠“背题”拿到高分，而是真学到了某种程度的物理规律——即便面对训练中没见过的场景外观，它仍然能沿给定动作序列，合理推演出接下来会发生什么。

这些场景的难度在于，它们不是简单生成视频，而是基于给定动作序列进行物理仿真。模型需要理解力和运动的关系，需要预判动作的后果，需要对三维空间有精确感知。这正是世界模型区别于普通视频生成模型的核心所在。WorldArena的评测也印证了这一点——榜单从视觉质量、运动质量、物理遵循性、内容一致性、三维空间准确性及可控性六大维度、16项细分指标进行综合评估，BWM在物理遵循性和可控性上表现突出。

当前世界模型行业有个明显痛点：学术成果难验证，顶尖技术难复现。很多团队论文成绩令人印象深刻，但外界既无法复现，也难以判断真实能力边界。BWM团队采取的策略是开源与闭源并行——开源版本BLM释放可复现的技术底座，降低科研和开发门槛；闭源版本则保持竞争力。这种打法兼顾了技术影响力的扩散和商业价值的保护。

这场榜单排名的冲击，不止于一款模型拿了第一。更值得关注的是它提示的方向：算力规模并非唯一入场券，架构原创才是真正的壁垒。BWM由欧洲科学院外籍院士、同济大学计算机科学与技术学院院长申恒涛教授牵头，国家级青年人才朱磊及其团队联合考拉悠然、上海码极客共同研发。团队选择了一条不那么“卷”的路线，用50亿参数的小体量跑赢诸多规模远超自己的对手。这个结果本身就是在重申一个基本常识——在AI这条路上，巧劲有时比蛮力走得更远。