9个月重构全新大模型！Meta 重金打造华人团队，Muse Spark 一战翻身|meta|muse|spark|大模型|智能体|模态

在生成式人工智能时代，元宇宙（Meta）一直是最受关注的公司之一。2023 年初，该公司推出了以开源为主的 Llama 系列大语言模型，迅速收获了海量忠实用户；但到了去年，Llama 4 发布后口碑褒贬不一，最终还被曝出在基准测试中刷分造假，Meta 的 AI 发展势头也因此骤然停滞。

Llama 4 坎坷的发布历程，显然促使 Meta 创始人兼首席执行官马克・扎克伯格在 2025 年夏季对公司 AI 业务进行了全面重组，成立了全新内部部门 —— 元宇宙超智能实验室（MSL），并聘请 29 岁的 Scale AI 前联合创始人兼首席执行官Alexandr Wang出任首席人工智能官，负责领导该部门，同事花重金聘请了多位华人技术大牛。

而就在今天，Meta 向外界展示了此番调整的成果：全新闭源模型Muse Spark。Alexandr Wang在竞品社交平台 X（机器学习社区更常用的平台）发文称，该模型是 “Meta 迄今发布的最强大模型”，支持工具调用、视觉思维链与多智能体协同。他还表示，Muse Spark 将开启全新的 Muse 模型系列，这也引发外界疑问：人气极高的 Llama 系列未来将何去何从、研发是否会继续。

Muse Spark 并非普通聊天机器人，而是Alexandr Wang口中 “个人超智能” 的底层基座。这款 AI 不只处理文本，更能 “观察并理解你周遭的世界”，成为用户的数字分身，这与扎克伯格 2025 年夏季公开提出的个人超智能愿景一脉相承。

但据 Meta 官方发布博文介绍，Muse Spark目前仅为闭源模型，仅限 Meta AI 应用、网页端使用，同时仅向部分用户开放 “私有 API 预览”。这一举措大概率会激怒数以十亿计的 Llama 模型用户，以及数千名依赖该模型的开发者（其中不少人活跃在竞品社交平台 Reddit 的 r/LocalLLaMA 板块）。此外，官方尚未公布该模型的定价信息。

目前尚不清楚 Meta 是否已彻底终止 Llama 系列的研发。科技媒体 VentureBeat 就此直接询问时，Meta 发言人在邮件中回应：“我们现有的 Llama 模型将继续保持开源”，但并未回应未来是否会推出新一代 Llama 模型。

视觉思维链

Muse Spark 本质上是一款原生多模态推理模型。不同于前代产品将视觉与文本 “拼接融合” 的方式，它从底层重新构建，在内部逻辑中全程整合视觉信息。这一架构革新实现了 “视觉思维链”，让模型能够对动态场景进行标注 —— 比如识别复杂意式咖啡机的零部件，或通过对比视频分析纠正用户的瑜伽动作。

而技术上最重大的突破，是全新的 \\“沉思模式”（Contemplating）\\。该功能可调度多个子智能体并行推理，让 Meta 得以对标谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 这类顶级推理模型。

在基准测试中，该模式在 “人类终极考试” 中取得 58% 的成绩，在 “前沿科学研究” 任务中达 38%，Meta 称这一结果验证了其全新的扩展路径。

对公司盈利更具意义的是模型的高效性。Meta 表示，Muse Spark 实现同等推理能力所需算力，比其上一代中型旗舰模型 Llama 4 Maverick少一个数量级以上。这种效率源于 “思维压缩” 技术：在强化学习阶段，模型会因过度 “思考耗时” 受到惩罚，迫使它用更少的推理 Token 解决复杂问题，同时不牺牲准确率。

基准测试：王者归来

Muse Spark 的发布被视作一次数据层面的 “量子跃迁”，终结了 Meta 长达一年无缘 AI 性能第一梯队的局面。

结合 Meta 官方内部数据与第三方大模型监测机构 Artificial Analysis 的独立审核结果可以明确：Muse Spark 不只是对 Llama 系列的小幅优化，更是让 Meta重新跻身全球前五顶尖模型行列。

根据 Artificial Analysis 智能指数 v4.0，Muse Spark 得分 52 分。作为对比，Meta 上一代旗舰 Llama 4 Maverick 在 2025 年发布时指数得分仅 18 分。

性能近乎提升两倍后，Muse Spark 已逼近行业顶级系统，仅落后于 Gemini 3.1 Pro Preview（57 分）、GPT-5.4（57 分）与 Claude Opus 4.6（53 分）。

Meta 官方测试显示，Muse Spark 在多模态推理，尤其是视觉图像与逻辑结合的场景中表现尤为突出：

CharXiv推理（图像理解）

86.4
分，大幅超越 Claude Opus 4.6 （ 65.3 ）、 Gemini 3.1 Pro （ 80.2 ）、 GPT-5.4 （ 82.8 ）
MMMU Pro
：官方
80.4 分，第三方实测 80.5% ，为全球第二强视觉模型，仅逊于 Gemini 3.1 Pro Preview
视觉事实性（SimpleVQA
71.3 分，领先 GPT-5.4 与 Grok 4.2 ，仅小幅落后 Gemini 3.1 Pro

这些成绩印证了 Meta 对 “视觉思维链” 的投入，让模型不只识别物体，更能推理复杂空间问题与动态标注。

在专业推理测试中：

人类终极考试（HLE
无工具 42.8 分、有工具 50.4 分，第三方实测 39.9%
GPQA Diamond（博士级推理）
89.5 分，超越Grok 4.2，略低于 Claude Opus 4.6 与 Gemini 3.1 Pro
ARC AGI 2
42.5 分，仍是明显短板，远落后于Gemini 3.1 Pro 与GPT-5.4
CritPT（物理研究）
11%，位列全球第五，大幅领先Gemini 3 Flash 与Claude 4.6 Sonnet