2亿美元起价挖人,个别还出过上10亿美元,百倍于行业水平,扎克伯格出手把硅谷搅翻了天。

他不仅要打造一支,而且要走别人的路,让别人无路可走:如果最好的AI企业是OpenAI,那就让OpenAI成为骨干人才流失的重灾区;如果中国出了个最好的开源模型DeepSeek,那就挖一批说普通话的。

扎克伯格这次要彻底推倒重来。Meta从Llama1到3,一直高举开源模型的大旗,但是,年初被DeepSeek一举超越,之后推出的Llama4 贻笑硅谷,旗舰模型Behemoth甚至不敢见人。Meta大模型已经落后于对手整整一代。

扎克伯格深知,还必须采取比马斯克在孟菲斯打造超级算力集群更快更狠的做法,才能赢得这场超级智能的“笼中角斗”。

电力:Meta已经不把本地电网放到眼里了,而是在俄亥俄的数据中心直接建了两个200MW的天然气发电厂,15台涡轮机发电,15台往复式发动机(备用电源)。

算力:为了让数据中心尽快上线,Meta直接搭起类似帐篷的轻结构,在里面堆起成千上万的G200/300GPU。不是为了美观,也不是为了省钱,只是为了更快。Meta在俄亥俄州打造的世界上最大的算力集群名叫普罗米修斯(Prometheus)。位于路易斯安那州建数据中心集群,预计将在 2027 年底成为全球最大的独立园区,第一阶段的 IT 电力将超过 1.5 GW。该数据中心内部名为 Hyperion。

数据:300亿美元直接收购AI数据处理独角兽公司Scale AI股权的49%,因为数据质量决定模型上限。

人才:除了开出高于足球巨星级别的“转会费”,Meta超级智能实验实(MSL)每位研究人员拥有无与伦比的算力,用来构建最佳开源模型家族,并有机会接触超过 20 亿的日活跃用户。这次挖来的每位研究人员,包括现金、签约奖金、股票,4年累积可达2亿美元起。据说Meta还出价超过十亿美元,要挖OpenAI的研究/工程的高层,目前还没有成功。

扎克伯格不仅要在人力上打击OpenAI,还要在算力上压倒OpenAI,Meta即将上线的1.5GW的超级集群,规模已经超过了“星际之门”在德州阿比林1.2GW的集群。

Semianalysis认为,Meta从统治开源AI,直到最近开始处于下风,被OpenAI、Anthropic、DeepSeek和xAI甩到身后,因为它采取了“渐进主义”的做法,即它的AI主要是为了服务其业务,如内容推荐、广告服务、内部效率工具等等,它能为现有的业务带来增长,只能带来财务收获,但是,Meta还缺乏对超级智能的真正追求,尤其是在人才和算力基础设施方面,短板越来越明显,与其他巨头相比,可能有错失AI的风险。

不过,做为一家上市企业,扎克伯格也需要经常向股东和投资者交待他在AI上砸钱,对业务和财务带来哪些回报。

据Semianalysis分析,在训练Llama4的过程中,Meta也犯下了一些技术错误:

1,分块注意力:

Behemoth 在实现分块注意力以追求效率时,产生了盲点,尤其是块与块之间出现了割裂。这影响了模型在思维链(chain of thought)超出单个块长度时发展推理能力。模型在长程推理上表现不佳。虽然事后看起来似乎显而易见,但Meta 当时甚至没有建立起合适的长上下文评估和测试基础设施,来判断分块注意力是否适合用来开发推理模型。

2,专家选择路由

在运行过程中, Meta 从专家选择切换到token选择路由, 这导致专家无法很好地专业化。

3,预训练数据质量

在 Llama 4 Behemoth 之前,Meta 一直在使用公共数据(例如 Common Crawl),但中途切换到了自己构建的内部网络爬虫。虽然这通常效果更佳,但也带来了一些问题。团队在清理和删除新数据流时遇到了困难。这些流程尚未经过大规模压力测试。

此外,与OpenAI和Deepseek等不同,Meta不使用YouTube数据,里面的讲座记录和其他视频是宝贵的数据来源,如果没有这些数据,Meta可能很难构建多模态模型。

4,扩展策略和协调

Llama 4 团队把研究实验扩展为完整的训练,运行中遇到了困难。研究方向之间存在竞争,缺乏领导力来决定哪条路径是最效的。有些模型架构的选择甚至没有经过适当的消融实验,就直接被塞进了模型里,导致扩展的梯度管理混乱。Meta如此重要的一次大规模的预训练运行,缺乏严谨性和充分准备。

上述几点暴露了Meta在人才方面的短板,才让扎克伯格痛下决心,采取了极端重赏的措施。

One More Thing

扎克伯格这次赶上了特朗普的“大漂亮法案”的好处。人工智能企业在研发和设备方面采购的费用,可以用来税收抵免。所以,扎克伯格算得很精:买得越多,省得越多!

参考文章:

https://semianalysis.com/2025/07/11/meta-superintelligence-leadership-compute-talent-and-data/