打开网易新闻 查看精彩图片

机器之心编辑部

Meta 的大模型,卷土重来了!

打开网易新闻 查看精彩图片

刚刚,Meta 重金组建的超级智能实验室(SML)交卷!这也是年轻华人 Alexandr Wang 带领该团队后,交出的首份成绩。

Meta 一直是生成式 AI 时代最值得关注的公司之一,早在 2023 年初,它凭借开源 Llama 系列模型,迅速积累了一批忠实且规模庞大的用户群体。然而,这一势头在去年戛然而止:Llama 4 发布后评价褒贬不一,最终甚至被曝出存在刷榜(操纵基准测试)的情况。

Llama 4 这次颇为坎坷的发布,促使 Meta 创始人兼 CEO 扎克伯格在 2025 年夏天对公司的 AI 业务进行了彻底重组,成立了一个全新的内部部门 ——Meta Superintelligence Labs(MSL),并邀请年仅 29 岁的前 Scale AI 联合创始人兼 CEO Alexandr Wang 出任首席 AI 官,负责领导该部门。

在此之后,Meta 又以高薪招募了多位顶级研究员,试图在大模型与通用智能(AGI)竞争中重新夺回主动权。

如今,Meta 正在展示这一系列调整的成果:全新自研模型 Muse Spark 上线。

Alexandr Wang 在竞争对手社交平台 X 上表示,「今天,Meta 正式发布 Muse Spark,这是 MSL 推出的首个模型。九个月前,我们从零开始重构了整套 AI 技术栈 —— 包括全新的基础设施、全新的模型架构以及全新的数据管线。Muse Spark 正是这一系列工作的成果,如今它已成为 Meta AI 的核心驱动力。」

打开网易新闻 查看精彩图片

Alexandr Wang 还表示,这是 Meta 迄今发布的最强模型,并具备工具调用、视觉思维链(visual chain of thought)以及多智能体协同(multi-agent orchestration)能力。他还透露,这将成为全新 Muse 模型家族的起点。

赵晟佳、Jason Wei等从OpenAI跳槽到Meta的大牛们,也开始「带货」新模型。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不过这也引发了外界对于 Meta 现有明星产品线,Llama 系列未来走向的诸多猜测。

Muse Spark 的定位,并非一个通用聊天机器人,而是构建所谓个人超级智能的基础。按照 Wang 的说法,这类 AI 不只是处理文本,而是能够看见并理解你周围的世界,从而成为个体能力的数字延伸。这一愿景,与扎克伯格在 2025 年夏天公开提出的个人超级智能宣言形成呼应。

Muse Spark 目前暂时仅限于在 Meta AI 应用和网站中使用,并通过面向部分用户开放的私有 API 预览提供访问。此外,目前 Meta 也尚未公布该模型的定价信息。至于 Meta 是否已经完全停止 Llama 系列的后续开发,目前仍不明确。

Muse Spark 性能

Muse Spark 在多模态感知、推理、医疗相关任务以及各类 agent 任务上表现出具有竞争力的能力。

打开网易新闻 查看精彩图片

Meta 还发布了 Contemplating(深度思考)模式,该模式可以调度多个 agent 并行推理。这使得 Muse Spark 能够在推理能力上,对标诸如 Gemini Deep Think 和 GPT Pro 等前沿模型的高强度推理模式。

这一点在评测指标上可以看出来。在 Contemplating 模式下,Muse Spark 在 Humanity’s Last Exam 测试中达到了 58%,在 FrontierScience Research 测试中达到了 38%。

打开网易新闻 查看精彩图片

Muse Spark 现已上线,Contemplating(深度思考)模式将会在 meta.ai 中逐步推出。

应用场景

Muse Spark 被视为 Meta 迈向个人超级智能的第一步,一种能够理解用户所处环境的 AI。从分析周围场景到辅助健康管理,其更强的推理能力被认为可以支撑一系列高度个性化的应用场景。

多模态能力

从设计之初,Muse Spark 就强调跨领域、跨工具整合视觉信息。在视觉类 STEM 问题、实体识别和空间定位等任务上展现出较强能力。这些能力被整合后,可以支持更具交互性的应用,例如生成简单小游戏,或通过动态标注帮助用户排查家中设备问题。

健康领域

在健康场景中,Meta 将个人超级智能视为重要落地方向之一。据介绍,其与超过 1000 名医生合作构建训练数据,以提升模型在健康推理方面的准确性和完整性。基于这些能力,Muse Spark 可以生成交互式内容,用于解释健康信息,例如食物的营养结构或运动过程中涉及的肌肉群等。

示例展示

打开网易新闻 查看精彩图片

提示:我是一名鱼素者,且胆固醇偏高。请在推荐的食物上标记绿点,在不推荐的食物上标记红点。请勿重复标记,并确保圆点的位置准确无误。当鼠标悬停在圆点上时,请显示个性化的推荐理由、满分 10 分的健康评分,以及该食物的热量、碳水化合物、蛋白质和脂肪含量。健康评分的数值应直接显示在圆点正上方,无需悬停即可见。悬停时显示的详细说明文字,应置于所有其他圆点的上方。

打开网易新闻 查看精彩图片

提示:针对这两张图片,请分别指出正在拉伸的肌肉部位及其难度等级。当鼠标悬停在圆点上时,请提供关于该肌群的详细信息,并指导我如何纠正动作姿势。我希望能提升自己的瑜伽水平。请将我和我的伙伴的图像并排展示,并分别以 1 到 10 的分数对我们两人的表现进行评分。

提示:你能把这个变成一个可以在网页上玩的数独游戏吗?

打开网易新闻 查看精彩图片

提示:识别咖啡机和磨豆机的关键组件,并制作一个交互式教程,通过简单的网页演示如何使用该设备制作拿铁咖啡;当鼠标悬停在操作步骤上时,网页将高亮显示对应组件的边界框。

扩展维度(Scaling Axes)

为了实现个人超级智能,模型能力需要以可预测且高效的方式持续扩展。为此,Meta 从三个维度对 Muse Spark 的规模化能力进行研究与跟踪:预训练、强化学习,以及测试时推理。

预训练(Pretraining)

预训练阶段,是 Muse Spark 获取核心能力的基础,包括多模态理解、推理以及编程能力,这些能力也为后续的强化学习和测试时计算提供支撑。

在过去九个月中,团队对预训练体系进行了全面重构,涵盖模型架构、优化方法以及数据构建等多个方面。这些改进共同提升了单位算力所能释放的模型能力。

为了更严格地评估这一新体系,团队通过一系列小模型拟合了扩展定律(scaling law),并对比了在达到同等性能水平时所需的训练 FLOPs。结果显示:与此前的 Llama 4 Maverick 相比,现在可以用超过一个数量级更少的算力,达到相同能力水平。这一提升也使 Muse Spark 在效率上显著领先于当前可对比的主流基础模型。

打开网易新闻 查看精彩图片

强化学习

在完成预训练之后,强化学习(RL)通过进一步投入算力,持续放大模型能力。尽管大规模 RL 一直以来都容易出现不稳定问题,但在新的技术体系下,模型表现出平稳且可预测的提升。

相关结果显示,随着 RL 计算量(以训练步数衡量)的增加,Muse Spark 的能力持续增强。左图中可以看到,在训练数据上,pass@1 和 pass@16(即 16 次尝试中至少成功一次)的指标呈现对数线性增长,这表明 RL 在提升模型可靠性的同时,并没有削弱其推理多样性。

右图则显示,在独立的测试集上,准确率同样稳步提升,这说明 RL 带来的能力提升具备良好的泛化性:即使是训练中未见过的任务,Muse Spark 的表现也在持续改善。

打开网易新闻 查看精彩图片

测试时推理(Test-Time Reasoning)

强化学习(RL)让模型在给出答案之前先思考,这一过程被称为测试时推理。要将这种能力服务于数十亿用户,关键在于高效使用推理 tokens。为此,Meta 主要依赖两个核心手段:一是通过思考时间惩罚来优化 token 使用效率,二是通过多智能体协同,在不显著增加响应时间的情况下提升性能。

为了实现每个 token 带来更多智能,其 RL 训练目标是在引入思考时间惩罚的前提下最大化正确率。在 AIME 等部分评测中,这一机制会引发一种相变现象:模型最初通过延长思考时间来提升表现,但随着长度惩罚的引入,开始压缩推理过程,Muse Spark 能用更少的 tokens 完成同样的问题求解。

在完成压缩之后,模型又会适度延展推理过程,以进一步提升整体表现,实现效率与性能之间的动态平衡。

打开网易新闻 查看精彩图片

为了在不显著增加延迟的情况下投入更多测试时推理计算,可以通过增加并行协作的 agent 数量来解决复杂问题。下图展示了这一方法的优势:相比传统测试时扩展(让单个 agent 思考更久),通过多 agent 协同推理来扩展 Muse Spark,可以在保持相近响应速度的同时,实现更优的性能表现。

打开网易新闻 查看精彩图片

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://venturebeat.com/technology/goodbye-llama-meta-launches-new-proprietary-ai-model-muse-spark-first-since