我用Meta“华人天团”打造的新模型，一张图复刻了一个“豆包App”|meta|muse|spark|华人天团|大模型|智能体|模态|豆包

Meta的“牛油果”模型，终于熟了！

智东西4月9日报道，今天，在成立9个月后，Meta超级智能实验室（MSL）发布了其首款模型Muse Spark（内部代号牛油果）。这是一个原生的多模态推理模型，支持工具使用、视觉思维链和多智能体编排。

在大模型测评平台Artificial Analysis上，Muse Spark的智能指数直接从Llama 4 Maverick的18分，跳到了52分，介于Claude Sonnet 4.6和Claude Opus 4.6之间，算是进入第一梯队了。

我们第一时间对模型做了体验，上传了一张豆包App的截图，要求Muse Spark复刻。可以看到Muse Spark的回复风格比较口语化，甚至有一股“豆包味儿”，这可能是因为这一模型主要面向C端用户。

Muse Spark的生成速度很快，效果也不错，基本1:1复刻了豆包的页面，连图像都还原了。

Muse Spark还通过了小球弹跳测试。有网友感叹道，时隔1年多，Meta终于发了一款能通过六边形小球弹跳测试的大模型，这一历史性时刻值得记录。

Muse Spark是ScaleAI创始人、Meta首席AI官汪滔（Alexandr Wang）加入Meta 10个月后，交出的首份答卷。

这一结果来的并不容易，此前，在Llama 4遭遇史诗级滑铁卢后，Meta大刀阔斧地重组了AI团队，唱衰大语言模型的杨立昆也最终离开。

汪滔称，Meta在过去9个月从零开始打造AI技术栈，基础设施、架构、数据管线都是全新的，Muse Spark正是这些努力的成果。

加入Meta的不少华人AI大牛纷纷转发了这一成果，包括赵晟佳、毕树超、余家辉、Jason Wei等等。值得一提的是，MSL团队的华人浓度很高，在转发新模型的Meta研究员中，从领导到基层员工，许多都是华人。

另据Top华人科创社的报道，Meta还迎来了一位新的华人大牛，前蚂蚁集团RL实验室首席科学家吴翼加盟了Meta MSL，直接向Meta副总裁和MSL联合负责人Nat Friedman汇报。

Muse Spark是MSL Muse系列模型中的首款，未来还会有更多该系列模型发布。目前Muse Spark已开始逐步推送至Meta旗下的应用和Meta.ai网页端，不过仍有用户反映自己使用的模型仍是Llama 3。

同时，“开源”两个字在相关博客中，一次也未被提及。

体验链接：meta.ai

一、多模态、医疗健康表现突出，智能体和编程仍是短板

从基准测试结果来看，Muse Spark在多模态感知、推理、医疗健康和智能体等领域的表现处于行业第一梯队。不过，MSL承认这一模型在长程智能体系统和编程工作流方面性能尚有差距。

以下是Muse Spark完整的基准测试成绩。需要注意的是，Meta在这里采用了一些有“图表诈骗”嫌疑的数据呈现方式。乍一看，Muse Spark的所有成绩都被标蓝，似乎全面领先，但实际上这一模型在图中的20项基准测试中，拿到的SOTA数量为4个。

在多模态能力维度，Muse Spark的表现较有竞争力，在美国大模型圈没有被拉开明显代差，基本和GPT-5.4处在同一水平线上。Muse Spark的表现也符合其原生多模态大模型的定位。

作为一款将部署于Meta旗下众多社交媒体、面向广大个人用户的模型，Muse Spark在用户高频关注的医疗健康领域同样没有掉队。在HealthBench Hard与MedXpertQA（多模态）两项评测中均斩获SOTA，显然对此进行了重点优化。

Muse Spark本次还发布了“沉思模式（Contemplating mode）”，该模式可协调多个智能体并行推理。这使得Muse Spark能够与Gemini Deep Think和GPT Pro等前沿模型的极限推理模式相媲美。

开启“沉思模式”后，Muse Spark在复杂任务中的能力得以提升，比如它在HLE“人类最后的考试”基准测试中，取得了58%的正确率，在“前沿科学研究”基准测试中取得了38%的正确率。

二、所需算力资源比Llama 4少一个量级，采用新型强化学习技术栈

跑分之外，这一模型的新定位和背后技术，也值得关注。

Meta称，Muse Spark是迈向个人超级智能的第一步，它能够理解用户所处的世界，多模态能力和医疗健康就是当前的两个重点。

Muse Spark从底层架构层面，整合了跨领域和工具的视觉信息，在识别、定位方面的能力不错。这些功能结合起来，可以实现各种交互式体验。

例如，用户可以上传一张游戏画面截图，然后让Muse Spark把它变成一个能真正互动的游戏。

或是告知Muse Spark自己有高胆固醇的问题，并让Muse Spark基于多模态能力和医疗知识，做一个动态的食物推荐页面。

Meta在博客中分享的demo也仅仅涉及多模态和医疗健康领域，这或许意味着Muse系列模型最终的用途，仍然是服务于扎克伯格的个人超级智能愿景，而不是单纯地追求智能上限。

在技术方面，MSL大幅度提升了算力利用率，与之前的模型Llama 4 Maverick相比，Muse Spark用少一个数量级以上的计算资源就能达到相同的性能。

同时，MSL还在强化学习阶段采用了新技术栈，在大规模强化学习中带来平稳、可预测的性能提升。

三、一手实测：精准识别食物热量，还给Meta AI眼镜造了个新品

Muse Spark发布后，我们进行了更多实测。

Muse Spark的多模态能力确实不错，我们上传了一个啤酒瓶的照片，让它分析热量。Muse Spark一眼就看出了啤酒的品牌、大小，甚至连原图中肉眼都难以分辨的酒精度都准确识别出来了。

它对于热量的分析则来自搜索，还把热量转换成了我们日常吃的食物，并给出要消耗这些热量对应的运动量，是比较实用的。

我们紧接着让Muse Spark给Meta的AI眼镜做一个宣传网页，没给任何参考。可以看到，在思考过程中Muse Spark主动调用AI生图模型打造了对应的产品图片，然后编写完整页面代码，整个过程耗时2分钟左右，效果如下：

这一网页的完成度不错，直接给Meta设计出了一款搭载Muse Spark的新品AI眼镜。模型还自夸道，这是一个旗舰级的官网，不是普通的落地页，是按Apple Vision Pro发布会标准做的。

Muse Spark还可用于购物推荐。我们试着让它搜索一款汽车雨刮器，几秒钟就拿到了好几个选项，并且有对每款产品优势劣势的分析和最终购买建议。

结语：牛油果熟了，但Meta的“个人超级智能”仍需耐心

作为Meta超级智能实验室的首秀，Muse Spark已经展现出跻身第一梯队的水准，足够让人期待未来的Muse系列后续产品。

不过，扎克伯格想要的“个人超级智能”，目前还停留在医疗健康问答、网页复刻、购物推荐这些相对可控的场景里。距离真正改变数亿用户的交互方式，还有很长的路要走。

我用Meta“华人天团”打造的新模型，一张图复刻了一个“豆包App”

热搜

热门跟贴

热搜

热门跟贴

相关推荐

女生发的视频被大家说长得像豆包，准备好道具现场模仿一下

月烧9亿美元！Meta员工狂刷算力写代码，一句话能干完的活非要水上十句

开盒Claude Code的原来是中国00后！曾怒怼Anthropic窃取用户代码

AI仿真人出海开卷，「世界工厂」的流水线转起来了

1人写出6万行代码，Gemini在UI上栽了跟头

实测DeepSeek新模型又“翻车”： 多模态功能识发票不识小猫，做数独卡死不再回话

男子提醒：使用豆包时别乱聊天：“后面是有审核员的，乱发太多内容当心被封号”，网友：难怪我问多了，它好像越来越烦了

把老家做成触手可及的思念，用模型还原故乡记忆

小艺Claw能生成网站、帮发小红书，鸿蒙手机“养虾”也太香了

118个API塞进1个文件，开发者把他们的"成功复盘"扒了个底朝

第二代豆包手机有望上半年上市！量级或为数万台

书包女操作看傻了，互联网没她在乎的人了，起猛了有点雌雄难辨！

张一鸣破格录用的80后，打造10亿人每日必刷应用

这一条内容炸裂到，怀疑人生！这是模仿的什么你看出来了吗？

刚刚，小扎砸143亿的「牛油果」来了！硬刚GPT-5.4，硅谷最贵华人首作

Meta亿元天团首个大模型交卷！耗时九个月，一雪Llama前耻

Meta重组AI团队后首个模型来了：不是最强、不再开源、可能够用

扎克伯格重开一局

开发时间从数月缩短到几天，Anthropic开始批发智能体了

Meta押注“超级智能”：Muse Spark横空出世，扎克伯格的AI翻身仗打响了

实测DeepSeek新模型又“翻车”：多模态功能识发票不识小猫，做数独卡死不再回话