Meta的“牛油果”模型,终于熟了!
智东西4月9日报道,今天,在成立9个月后,Meta超级智能实验室(MSL)发布了其首款模型Muse Spark(内部代号牛油果)。这是一个原生的多模态推理模型,支持工具使用、视觉思维链和多智能体编排。
在大模型测评平台Artificial Analysis上,Muse Spark的智能指数直接从Llama 4 Maverick的18分,跳到了52分,介于Claude Sonnet 4.6和Claude Opus 4.6之间,算是进入第一梯队了。
我们第一时间对模型做了体验,上传了一张豆包App的截图,要求Muse Spark复刻。可以看到Muse Spark的回复风格比较口语化,甚至有一股“豆包味儿”,这可能是因为这一模型主要面向C端用户。
Muse Spark的生成速度很快,效果也不错,基本1:1复刻了豆包的页面,连图像都还原了。
Muse Spark还通过了小球弹跳测试。有网友感叹道,时隔1年多,Meta终于发了一款能通过六边形小球弹跳测试的大模型,这一历史性时刻值得记录。
Muse Spark是ScaleAI创始人、Meta首席AI官汪滔(Alexandr Wang)加入Meta 10个月后,交出的首份答卷。
这一结果来的并不容易,此前,在Llama 4遭遇史诗级滑铁卢后,Meta大刀阔斧地重组了AI团队,唱衰大语言模型的杨立昆也最终离开。
汪滔称,Meta在过去9个月从零开始打造AI技术栈,基础设施、架构、数据管线都是全新的,Muse Spark正是这些努力的成果。
加入Meta的不少华人AI大牛纷纷转发了这一成果,包括赵晟佳、毕树超、余家辉、Jason Wei等等。值得一提的是,MSL团队的华人浓度很高,在转发新模型的Meta研究员中,从领导到基层员工,许多都是华人。
另据Top华人科创社的报道,Meta还迎来了一位新的华人大牛,前蚂蚁集团RL实验室首席科学家吴翼加盟了Meta MSL,直接向Meta副总裁和MSL联合负责人Nat Friedman汇报。
Muse Spark是MSL Muse系列模型中的首款,未来还会有更多该系列模型发布。目前Muse Spark已开始逐步推送至Meta旗下的应用和Meta.ai网页端,不过仍有用户反映自己使用的模型仍是Llama 3。
同时,“开源”两个字在相关博客中,一次也未被提及。
体验链接:meta.ai
从基准测试结果来看,Muse Spark在多模态感知、推理、医疗健康和智能体等领域的表现处于行业第一梯队。不过,MSL承认这一模型在长程智能体系统和编程工作流方面性能尚有差距。
以下是Muse Spark完整的基准测试成绩。需要注意的是,Meta在这里采用了一些有“图表诈骗”嫌疑的数据呈现方式。乍一看,Muse Spark的所有成绩都被标蓝,似乎全面领先,但实际上这一模型在图中的20项基准测试中,拿到的SOTA数量为4个。
在多模态能力维度,Muse Spark的表现较有竞争力,在美国大模型圈没有被拉开明显代差,基本和GPT-5.4处在同一水平线上。Muse Spark的表现也符合其原生多模态大模型的定位。
作为一款将部署于Meta旗下众多社交媒体、面向广大个人用户的模型,Muse Spark在用户高频关注的医疗健康领域同样没有掉队。在HealthBench Hard与MedXpertQA(多模态)两项评测中均斩获SOTA,显然对此进行了重点优化。
Muse Spark本次还发布了“沉思模式(Contemplating mode)”,该模式可协调多个智能体并行推理。这使得Muse Spark能够与Gemini Deep Think和GPT Pro等前沿模型的极限推理模式相媲美。
开启“沉思模式”后,Muse Spark在复杂任务中的能力得以提升,比如它在HLE“人类最后的考试”基准测试中,取得了58%的正确率,在“前沿科学研究”基准测试中取得了38%的正确率。
二、所需算力资源比Llama 4少一个量级,采用新型强化学习技术栈
跑分之外,这一模型的新定位和背后技术,也值得关注。
Meta称,Muse Spark是迈向个人超级智能的第一步,它能够理解用户所处的世界,多模态能力和医疗健康就是当前的两个重点。
Muse Spark从底层架构层面,整合了跨领域和工具的视觉信息,在识别、定位方面的能力不错。这些功能结合起来,可以实现各种交互式体验。
例如,用户可以上传一张游戏画面截图,然后让Muse Spark把它变成一个能真正互动的游戏。
或是告知Muse Spark自己有高胆固醇的问题,并让Muse Spark基于多模态能力和医疗知识,做一个动态的食物推荐页面。
Meta在博客中分享的demo也仅仅涉及多模态和医疗健康领域,这或许意味着Muse系列模型最终的用途,仍然是服务于扎克伯格的个人超级智能愿景,而不是单纯地追求智能上限。
在技术方面,MSL大幅度提升了算力利用率,与之前的模型Llama 4 Maverick相比,Muse Spark用少一个数量级以上的计算资源就能达到相同的性能。
同时,MSL还在强化学习阶段采用了新技术栈,在大规模强化学习中带来平稳、可预测的性能提升。
三、一手实测:精准识别食物热量,还给Meta AI眼镜造了个新品
Muse Spark发布后,我们进行了更多实测。
Muse Spark的多模态能力确实不错,我们上传了一个啤酒瓶的照片,让它分析热量。Muse Spark一眼就看出了啤酒的品牌、大小,甚至连原图中肉眼都难以分辨的酒精度都准确识别出来了。
它对于热量的分析则来自搜索,还把热量转换成了我们日常吃的食物,并给出要消耗这些热量对应的运动量,是比较实用的。
我们紧接着让Muse Spark给Meta的AI眼镜做一个宣传网页,没给任何参考。可以看到,在思考过程中Muse Spark主动调用AI生图模型打造了对应的产品图片,然后编写完整页面代码,整个过程耗时2分钟左右,效果如下:
这一网页的完成度不错,直接给Meta设计出了一款搭载Muse Spark的新品AI眼镜。模型还自夸道,这是一个旗舰级的官网,不是普通的落地页,是按Apple Vision Pro发布会标准做的。
Muse Spark还可用于购物推荐。我们试着让它搜索一款汽车雨刮器,几秒钟就拿到了好几个选项,并且有对每款产品优势劣势的分析和最终购买建议。
结语:牛油果熟了,但Meta的“个人超级智能”仍需耐心
作为Meta超级智能实验室的首秀,Muse Spark已经展现出跻身第一梯队的水准,足够让人期待未来的Muse系列后续产品。
不过,扎克伯格想要的“个人超级智能”,目前还停留在医疗健康问答、网页复刻、购物推荐这些相对可控的场景里。距离真正改变数亿用户的交互方式,还有很长的路要走。
热门跟贴