Meta发布Muse Spark：华人天团废墟重建，最恨Llama的果然是小扎自己|meta|muse|openai|spark|小扎|马克·扎克伯格

作者｜猫猫头
邮箱｜ cathy@pingwest.com

在Llama彻底“崩盘”后，Meta创始人兼CEO扎克伯格亲手拆除过去的团队、架构并彻底走向“反Llama”路线，砸百亿建起华人科学家为主的AI研发天团。今天，在9个月后，在整个硅谷关注以及不少的冷嘲热讽下，他和这个全新团队终于交出了首个模型作品，试图证明一整套从零搭建的AI栈跑通了。

4月8日，Meta正式发布了MSL（Meta Superintelligence Labs）成立以来的第一个模型Muse Spark。九个月前Alexandr Wang加入Meta担任首席AI官，带着从OpenAI挖来的一众华人核心研究员，推翻了整个Llama时代的技术栈——新基础设施、新架构、新数据管道，全部从零开始。Muse Spark就是这套新栈的第一个产出，现在它已经直接上线驱动Meta AI。

在Llama 4因benchmark造假风波陷入被动的背景下，这是Meta的一次全面重启。

Muse Spark是什么

它是个处处和Llama反着来的模型：

一个被刻意设计得小巧、轻量、高响应速度的原生多模态推理闭源模型。

先看它的核心能力：

原生多模态：不是把视觉编码器硬缝到文本模型上的"拼接式"架构。从预训练阶段起，文本、图像、语音就在同一个高维特征空间里训练。这意味着它处理图片不需要先翻译成文字描述，而是直接从像素级别提取信息。
Visual Chain of Thought（VCoT，视觉思维链）：传统的思维链推理是纯文本的，模型在文字里逐步拆解问题。Muse Spark把这个机制引入了视觉空间——它能在图像中"思考"，自主构建视觉元素之间的空间和逻辑关系。
Contemplating Mode（沉思模式）：对标Gemini Deep Think和GPT Pro的极限推理模式。区别在于它不是单线串行推理，而是在后台同时拉起多个并行运算的子agent，各自处理任务的不同维度，最后由主控系统融合结果。沉思模式下Humanity's Last Exam达到58%，FrontierScience Research达到38%。
工具调用和多agent编排：原生支持，不是后期拼上去的。

目前Muse Spark已在meta.ai和Meta AI app上线，Contemplating Mode逐步灰度中，同时向少量合作伙伴开放私有API预览。

技术亮点：华人天团都是怎么说的

今天MSL团队几乎集体在X上发帖，几个关键信息值得注意：

Meta官方博客放出了一个极其重要的数据：在预训练阶段，新栈达到同等能力水平所需的算力比上一代Llama 4 Maverick减少了超过一个数量级。不是百分之几十的优化，是10倍以上的效率提升。博客原文称"over an order of magnitude less compute"，并且"significantly more efficient than the leading base models available for comparison"——甚至比其他家的基座模型都高效。

Alexandr Wang的九条thread里最重要的一句话："we saw predictable scaling across pretraining, RL, & test-time reasoning." 预训练、强化学习、测试时推理，三条线都看到了可预测的scaling——这可能比任何benchmark数字都重要。它意味着这套栈不是调出来的一个lucky shot，而是一个scaling曲线平滑的系统。

首席科学家赵晟佳（@shengjia_zhao）的描述更具体：这个模型的训练路径是"端到端的教育"——school（预训练）、homework（RL）、on-the-job training（产品部署后的持续学习）。他强调"we just got started"。

RL部分有个很有意思的技术细节。毕树超（@shuchaobi）提到了训练中最痛苦的部分：大规模RL的不稳定性，以及"fighting reward hacking"——对抗奖励机制作弊。但官方博客显示他们最终把RL跑到了"smooth, predictable gains"的状态，pass@1和pass@16都呈log-linear增长，而且在未见过的评测集上也能平滑泛化。

更有意思的是RL训练中出现的"相变"现象：团队在训练时引入了thinking time penalty（思考时间惩罚），模型先是通过更长的思考来提升表现，然后在惩罚压力下学会了"思想压缩"——用更少的token解决同样的问题，之后又再次延伸推理以达到更高性能。Ananya Kumar（@ananyaku）在帖中称这个过程"pretty neat"。

Ananya放出的另一组图表显示了多agent推理的关键insight：多个agent并行推理，在相同延迟下能达到比单agent更高的性能。换句话说，Contemplating Mode不只是"让模型想得更久"，而是"让多个模型同时想不同的事"。

余家辉（@jhyuxm）作为多模态底座的总架构师，说了一句很有意思的话："It's been a fulfilling journey not just building the model, but the team and culture behind it." 建模型是一回事，建团队和文化是另一回事——他们在九个月里两件事同时干了。

Jason Wei（@_jasonwei）的回忆最有画面感："第一周我们在食堂吃了一顿漫长的晚餐，畅想研究方向，然后回到桌前写了一个基本的inference llama脚本。现在我们有了一套相当完整的技术栈，第一个模型已经发布。"

Benchmark：什么领先不领先，回到牌桌先

再来看看benchmark数据：

HealthBench Hard（极高难度医学问答）：Muse Spark 42.8，GPT-5.4是40.1，Gemini 3.1 Pro只有20.6，Claude Opus 4.6只有14.8。绝对领先，接近其他模型的两到三倍。
CharXiv Reasoning（科研论文图表深度理解）：86.4，全行业最高。
SWE-bench Pro（真实软件工程任务）：55.0%，超过Claude Opus 4.6的51.9%。
Artificial Analysis综合智能指数：52分，而GPT-5.4和Gemini 3.1 Pro都是57分。

Meta想借此说明：Muse Spark在医疗多模态和科研图表理解这两个需要"真正看懂图"的领域，已经是毫无争议的第一。在代码工程上也进入了第一梯队。

不过，目前它综合能力距离GPT-5.4和Gemini 3.1 Pro还有5分的差距，纯文本高级推理方面也还没撼动Anthropic和Google的积累。

这样的表现继续引来一些批评，Ndea的cofounder François Chollet直接称Muse Spark"已经看起来是个令人失望的模型"，他认为模型过度优化了公开benchmark，牺牲了实际可用性——而Alexandr Wang的回应很克制：承认模型在ARC AGI 2等评测上表现不佳，并强调这些数据已主动公开。

Chollet的质疑不是没有道理。Llama 4时代Meta就因benchmark造假风波伤过一次信誉。这次Muse Spark在Artificial Analysis综合指数上仍落后GPT-5.4和Gemini 3.1 Pro五分，医疗和科研图表上的断档领先，是否来自对特定benchmark的定向优化，还是原生多模态架构带来的真实能力？这个问题需要更多第三方独立测试来回答。

Muse Spark当然重要，但它最重要的意义不在于今天的benchmark分数。

从这个模型的设计，到这些研究员此次重点介绍的技术亮点，一切都指向对Llama的反对：Llama 4的大溃败在扎克伯格眼里是个要彻底翻篇的事情，所以不只是它的开源路线，它的模型架构要改，更重要的是它整个训练基础设施都得给它掀翻了。此次这几位核心作者的x发文，看起来都在围绕底层技术栈的重构来介绍。Muse Spark这次发布也让人更明白扎克伯格挖来Alexander Wang的目的。

最恨Llama的还得是扎克伯格自己，他必须得全盘给它推翻，在废墟里重建。

此次的发布也是Meta招兵买马后那支华人天团交出的第一个模型。余家辉（前OpenAI感知团队负责人、GPT-4o核心开发者）、赵晟佳（前OpenAI合成数据研发领头人、ChatGPT联合创作者）、任泓宇（前OpenAI o1/o3推理核心贡献者）、毕树超（前OpenAI多模态后训练负责人）、林纪（前OpenAI核心优化专家）——这些被Meta用上亿美元的签字费挖过来的AI科学家，在纸面上自然是一个明星团队，他们必须先用一个模型让Meta回到牌桌上。这是扎克伯格的当务之急。

扎克伯格在九个月前交给他们的是一张白纸。今天他们交出的答案其实更多是一整套预训练、RL、测试时推理的完整栈，并且——关键在这——scaling曲线是平滑的、可预测的。

更大的模型已经在路上了。