作者 | 猫猫头
邮箱 | cathy@pingwest.com
在Llama彻底“崩盘”后,Meta创始人兼CEO扎克伯格亲手拆除过去的团队、架构并彻底走向“反Llama”路线,砸百亿建起华人科学家为主的AI研发天团。今天,在9个月后,在整个硅谷关注以及不少的冷嘲热讽下,他和这个全新团队终于交出了首个模型作品,试图证明一整套从零搭建的AI栈跑通了。
4月8日,Meta正式发布了MSL(Meta Superintelligence Labs)成立以来的第一个模型Muse Spark。九个月前Alexandr Wang加入Meta担任首席AI官,带着从OpenAI挖来的一众华人核心研究员,推翻了整个Llama时代的技术栈——新基础设施、新架构、新数据管道,全部从零开始。Muse Spark就是这套新栈的第一个产出,现在它已经直接上线驱动Meta AI。
在Llama 4因benchmark造假风波陷入被动的背景下,这是Meta的一次全面重启。
1
Muse Spark是什么
它是个处处和Llama反着来的模型:
一个被刻意设计得小巧、轻量、高响应速度的原生多模态推理闭源模型。
先看它的核心能力:
原生多模态:不是把视觉编码器硬缝到文本模型上的"拼接式"架构。从预训练阶段起,文本、图像、语音就在同一个高维特征空间里训练。这意味着它处理图片不需要先翻译成文字描述,而是直接从像素级别提取信息。
Visual Chain of Thought(VCoT,视觉思维链):传统的思维链推理是纯文本的,模型在文字里逐步拆解问题。Muse Spark把这个机制引入了视觉空间——它能在图像中"思考",自主构建视觉元素之间的空间和逻辑关系。
Contemplating Mode(沉思模式):对标Gemini Deep Think和GPT Pro的极限推理模式。区别在于它不是单线串行推理,而是在后台同时拉起多个并行运算的子agent,各自处理任务的不同维度,最后由主控系统融合结果。沉思模式下Humanity's Last Exam达到58%,FrontierScience Research达到38%。
工具调用和多agent编排:原生支持,不是后期拼上去的。
目前Muse Spark已在meta.ai和Meta AI app上线,Contemplating Mode逐步灰度中,同时向少量合作伙伴开放私有API预览。
1
技术亮点:华人天团都是怎么说的
今天MSL团队几乎集体在X上发帖,几个关键信息值得注意:
Meta官方博客放出了一个极其重要的数据:在预训练阶段,新栈达到同等能力水平所需的算力比上一代Llama 4 Maverick减少了超过一个数量级。不是百分之几十的优化,是10倍以上的效率提升。博客原文称"over an order of magnitude less compute",并且"significantly more efficient than the leading base models available for comparison"——甚至比其他家的基座模型都高效。
Alexandr Wang的九条thread里最重要的一句话:"we saw predictable scaling across pretraining, RL, & test-time reasoning." 预训练、强化学习、测试时推理,三条线都看到了可预测的scaling——这可能比任何benchmark数字都重要。它意味着这套栈不是调出来的一个lucky shot,而是一个scaling曲线平滑的系统。
首席科学家赵晟佳(@shengjia_zhao)的描述更具体:这个模型的训练路径是"端到端的教育"——school(预训练)、homework(RL)、on-the-job training(产品部署后的持续学习)。他强调"we just got started"。
RL部分有个很有意思的技术细节。毕树超(@shuchaobi)提到了训练中最痛苦的部分:大规模RL的不稳定性,以及"fighting reward hacking"——对抗奖励机制作弊。但官方博客显示他们最终把RL跑到了"smooth, predictable gains"的状态,pass@1和pass@16都呈log-linear增长,而且在未见过的评测集上也能平滑泛化。
更有意思的是RL训练中出现的"相变"现象:团队在训练时引入了thinking time penalty(思考时间惩罚),模型先是通过更长的思考来提升表现,然后在惩罚压力下学会了"思想压缩"——用更少的token解决同样的问题,之后又再次延伸推理以达到更高性能。Ananya Kumar(@ananyaku)在帖中称这个过程"pretty neat"。
Ananya放出的另一组图表显示了多agent推理的关键insight:多个agent并行推理,在相同延迟下能达到比单agent更高的性能。换句话说,Contemplating Mode不只是"让模型想得更久",而是"让多个模型同时想不同的事"。
余家辉(@jhyuxm)作为多模态底座的总架构师,说了一句很有意思的话:"It's been a fulfilling journey not just building the model, but the team and culture behind it." 建模型是一回事,建团队和文化是另一回事——他们在九个月里两件事同时干了。
Jason Wei(@_jasonwei)的回忆最有画面感:"第一周我们在食堂吃了一顿漫长的晚餐,畅想研究方向,然后回到桌前写了一个基本的inference llama脚本。现在我们有了一套相当完整的技术栈,第一个模型已经发布。"
1
Benchmark:什么领先不领先,回到牌桌先
再来看看benchmark数据:
HealthBench Hard(极高难度医学问答):Muse Spark 42.8,GPT-5.4是40.1,Gemini 3.1 Pro只有20.6,Claude Opus 4.6只有14.8。绝对领先,接近其他模型的两到三倍。
CharXiv Reasoning(科研论文图表深度理解):86.4,全行业最高。
SWE-bench Pro(真实软件工程任务):55.0%,超过Claude Opus 4.6的51.9%。
Artificial Analysis综合智能指数:52分,而GPT-5.4和Gemini 3.1 Pro都是57分。
Meta想借此说明:Muse Spark在医疗多模态和科研图表理解这两个需要"真正看懂图"的领域,已经是毫无争议的第一。在代码工程上也进入了第一梯队。
不过,目前它综合能力距离GPT-5.4和Gemini 3.1 Pro还有5分的差距,纯文本高级推理方面也还没撼动Anthropic和Google的积累。
这样的表现继续引来一些批评,Ndea的cofounder François Chollet直接称Muse Spark"已经看起来是个令人失望的模型",他认为模型过度优化了公开benchmark,牺牲了实际可用性——而Alexandr Wang的回应很克制:承认模型在ARC AGI 2等评测上表现不佳,并强调这些数据已主动公开。
Chollet的质疑不是没有道理。Llama 4时代Meta就因benchmark造假风波伤过一次信誉。这次Muse Spark在Artificial Analysis综合指数上仍落后GPT-5.4和Gemini 3.1 Pro五分,医疗和科研图表上的断档领先,是否来自对特定benchmark的定向优化,还是原生多模态架构带来的真实能力?这个问题需要更多第三方独立测试来回答。
Muse Spark当然重要,但它最重要的意义不在于今天的benchmark分数。
从这个模型的设计,到这些研究员此次重点介绍的技术亮点,一切都指向对Llama的反对:Llama 4的大溃败在扎克伯格眼里是个要彻底翻篇的事情,所以不只是它的开源路线,它的模型架构要改,更重要的是它整个训练基础设施都得给它掀翻了。此次这几位核心作者的x发文,看起来都在围绕底层技术栈的重构来介绍。Muse Spark这次发布也让人更明白扎克伯格挖来Alexander Wang的目的。
最恨Llama的还得是扎克伯格自己,他必须得全盘给它推翻,在废墟里重建。
此次的发布也是Meta招兵买马后那支华人天团交出的第一个模型。余家辉(前OpenAI感知团队负责人、GPT-4o核心开发者)、赵晟佳(前OpenAI合成数据研发领头人、ChatGPT联合创作者)、任泓宇(前OpenAI o1/o3推理核心贡献者)、毕树超(前OpenAI多模态后训练负责人)、林纪(前OpenAI核心优化专家)——这些被Meta用上亿美元的签字费挖过来的AI科学家,在纸面上自然是一个明星团队,他们必须先用一个模型让Meta回到牌桌上。这是扎克伯格的当务之急。
扎克伯格在九个月前交给他们的是一张白纸。今天他们交出的答案其实更多是一整套预训练、RL、测试时推理的完整栈,并且——关键在这——scaling曲线是平滑的、可预测的。
更大的模型已经在路上了。
点个“爱心”,再走 吧
热门跟贴