提交结果那天,朱磊团队并不确定评审会怎么打分。他们手里的模型参数量只有50亿,而榜单上的对手们,动辄百亿甚至千亿参数。几天后,WorldArena公布Track-1最终排名:开源版本BLM以64.54分拿下全球第一,闭源版本BWM-Fast以67.87分位列总榜第二。排在前面的,是Google、NVIDIA、高德、智元机器人、生数科技、极佳视界、流形空间、北京人形机器人创新中心。
这个消息很快在AI圈传开了。反应出奇一致——意外。毕竟当下主流的叙事是“算力即正义”,模型参数越大、训练数据越多、算力集群越庞大,才越有胜算。一个只有50亿参数、基于阿里巴巴开源Wan2.2-TI2V-5B视频生成模型做出来的系统,怎么就把一堆“大块头”给超了?
要回答这个问题,得先搞清楚世界模型到底在解决什么。打个比方:你给AI一张照片,再告诉它“把杯子放到桌上”,它就能推演出整个动作过程的视频。这不是简单的画面预测,而是让AI理解力和运动的关系,理解物体在三维空间里怎么交互。有了这种能力,机器人就不用在真实世界里一次次试错,而是在虚拟环境里先把动作“彩排”无数遍。
这件事的重要性,从2026年的资本热度就能看出来。图灵奖得主Yann LeCun和谢赛宁合创AMI Labs,据多家媒体报道融资规模达到10亿美元级别。李飞飞的World Labs持续加码。贝索斯成立Project Prometheus押注制造业AI。具身智能还被列入“十五五”未来产业规划。政策加资本双重驱动,全球科技巨头都在往这条赛道里挤。
但这条赛道的竞争方式,近两年明显走向了“军备竞赛”:模型参数越来越庞大,训练数据越堆越多,算力卡集群越拉越长。BWM团队的路线正好相反——他们不靠堆数据和拼算力,而是靠架构创新和数据效率来取胜。具体拆开看,这条技术路线有三个层面的创新。
第一层是架构选择。BWM采用了DiT架构,用注意力机制替代了传统的卷积骨干网络。处理长视频序列时,这种架构能捕捉更远距离的时空依赖关系——模型在推演第100帧画面时,还能记住第1帧里杯子放在哪个位置。团队还引入了动态记忆机制,进一步缓解长时序推演中的“灾难性遗忘”问题。
第二层是场景初始化策略。首帧引导机制利用初始帧信息来锚定场景,让视频生成保持时空连贯性。第三层则是动作控制。双通路动作控制调制把机器人动作轨迹精准映射到视频生成过程中,实现动作可控的物理仿真。三项创新从场景初始化、长时序记忆建模到动作响应控制协同工作,让模型在时空连贯性、动作可控性和物理一致性上全面占优。
榜单成绩之外,更值得关注的是六类具身任务场景的测试结果。这些场景每一类都在考验模型对不同物理交互的建模能力。空间重排任务要求按大小排列积木、堆叠碗碟,挑战的是多物体空间排序与堆叠稳定性。BWM在这里保持了物体身份与目标布局,能维持稳定堆叠接触,还能预测自适应夹爪控制。
铰链交互任务包括打开微波炉、翻开笔记本电脑,考验的是铰链约束下的开合动力学,以及旋转过程中物体几何形态的连贯性。BWM在长时序推演中保持了物体状态的持久性。精细操作更难——拧开关、挂杯子、按铃铛、盖印章,接触区域极小,状态变化必须精确,要求模型理解物体“能怎么用”。
双臂协同任务涉及双手传递积块、交接麦克风,挑战在于双臂同步运动和近距离交接中的碰撞避免。BWM成功建模了同步双臂运动,保持物体连续性。长程放置任务要求把物体放入柜子、瓶子扔进垃圾桶,难点是长时序场景一致性和遮挡下的物体漂移。测试中BWM在遮挡场景下物体不会“凭空消失”。
分布外泛化任务最能说明问题。团队用GPT-Image-2生成了从未见过的初始场景,叠加原始机器人动作序列让BWM推演结果。面对物体外观的剧烈变化,模型仍然保持了动作驱动的动力学一致性和交互连贯性。这意味着BWM不是靠“背题”拿到高分,而是真学到了某种程度的物理规律——即便面对训练中没见过的场景外观,它仍然能沿给定动作序列,合理推演出接下来会发生什么。
这些场景的难度在于,它们不是简单生成视频,而是基于给定动作序列进行物理仿真。模型需要理解力和运动的关系,需要预判动作的后果,需要对三维空间有精确感知。这正是世界模型区别于普通视频生成模型的核心所在。WorldArena的评测也印证了这一点——榜单从视觉质量、运动质量、物理遵循性、内容一致性、三维空间准确性及可控性六大维度、16项细分指标进行综合评估,BWM在物理遵循性和可控性上表现突出。
当前世界模型行业有个明显痛点:学术成果难验证,顶尖技术难复现。很多团队论文成绩令人印象深刻,但外界既无法复现,也难以判断真实能力边界。BWM团队采取的策略是开源与闭源并行——开源版本BLM释放可复现的技术底座,降低科研和开发门槛;闭源版本则保持竞争力。这种打法兼顾了技术影响力的扩散和商业价值的保护。
这场榜单排名的冲击,不止于一款模型拿了第一。更值得关注的是它提示的方向:算力规模并非唯一入场券,架构原创才是真正的壁垒。BWM由欧洲科学院外籍院士、同济大学计算机科学与技术学院院长申恒涛教授牵头,国家级青年人才朱磊及其团队联合考拉悠然、上海码极客共同研发。团队选择了一条不那么“卷”的路线,用50亿参数的小体量跑赢诸多规模远超自己的对手。这个结果本身就是在重申一个基本常识——在AI这条路上,巧劲有时比蛮力走得更远。
热门跟贴