打开网易新闻 查看精彩图片

新智元报道

编辑:好困 桃子

【新智元导读】在工业界动辄十万卡的暴力美学面前,学术界正沦为算力的「贫民窟」。当高校人均不足0.1张卡时,AI科研的主导权之争或许已经没有了悬念。

学术界的GPU荒,比想象中还要严重百倍!

NeurIPS 2025期间,两位YC大佬组了个饭局,邀请14位美国顶尖高校实验室的教授。

没想到,席间很多人都在吐槽:学术界算力资源简直「惨不忍睹」!

打开网易新闻 查看精彩图片

出于好奇,Francois Chaubard就去扒了一下数据,得到的结果离谱到家.....

打开网易新闻 查看精彩图片

以下是美国顶尖大学实验室的情况——

· 普林斯顿:人均0.8张GPU

· 斯坦福:人均0.14张GPU(超算集群Marlowe仅有248张H100可用)

· 哈佛、UW、CMU:均在0.2-0.4张GPU之间

· 加州理工、MIT、UC伯克利:连0.1张GPU也达不到

如今,想要做点像样的AI研究,人均至少得有1张GPU。实话说,真正要做起来,起码8张才够用。

打开网易新闻 查看精彩图片

没有对比,就没有伤害。

此时此刻,全球顶尖大厂的前沿实验室动辄就是十万张GPU起步。

就拿微软的Fairwater Atlanta数据中心来说,它目前的算力每个月能跑23次GPT-4规模的训练。

换句话说,当年训练初代GPT-4花了90到100天,同样的时间放在这里,大概能把这个过程跑上70次。

有了这种巨型数据中心,实验室就能大幅提升前期实验和最终模型训练的规模与频次。

打开网易新闻 查看精彩图片

到2026年底,马斯克的Colossus 2很可能会把这些数字翻上一番都不止。

而到了2027年底,微软的Fairwater Wisconsin预计单月就能完成超过225次GPT-4规模的训练任务。

打开网易新闻 查看精彩图片

马斯克xAI正在百万张GPU串联的超级巨兽「Colossus 2」训练Grok 5

学术GPU太缺了

2024年李飞飞在一场炉边谈话中坦言,「斯坦福NLP实验室仅有64张GPU」。

学术界在AI计算资源方面,正面临断崖式下跌。

与此同时,Nature一篇调查提出了「AI算力差距」,揭示了同样令人扎心的现实:

想要训练AI模型,学术界科学家能用的计算资源,跟工业界完全不是一个量级。

打开网易新闻 查看精彩图片

如上开篇一些数据,恰恰从侧面印证了,高校GPU根本不足以开展大规模的AI实验。

这种现象,不管在美国,还是国内,基本大差不差。

在Reddit上一篇热帖中,一位博士生自曝没有H100,算力成为了项目展开的主要瓶颈。

打开网易新闻 查看精彩图片

不仅如此,在Uvation调研中,GPU在高校课程和教学中也越来越重要,正在重塑学生学习计算机科学、工程学的方式。

如下表所示,斯坦福、MIT、牛津大学需要使用GPU相关的课程。

打开网易新闻 查看精彩图片

学术界GPU荒可不是小事,它的影响会像多米诺骨牌一样扩散开来。

杜克大学陈怡然教授曾提到一点,因为工业界和学术界计算、数据资源差距拉大,AI科研人员不再把高校教职当做目标。

这也就意味着,顶尖人才未来会加速流向工业界,全因GPU不够。

打开网易新闻 查看精彩图片

另一方面,学术界因GPU有限难以验证big idea,正逐渐失去了定义前沿的能力。

2025年斯坦福AI指数报告中,一张图清晰地呈现了这一趋势。

谷歌、Meta、微软、OpenAI等科技巨头产出有影响力的AI模型数量远超学术界。

打开网易新闻 查看精彩图片

AI大牛Sebastian Raschka表示,资源少只是问题之一。

另一个问题是,这些资源通常只能通过 SLURM(或类似的调度系统)访问,根本没有交互模式。

除非你已经完全清楚要跑什么实验以及要跑多久,否则这一套流程走下来简直折磨人。 这种条件下做研究真是太难了。

打开网易新闻 查看精彩图片

此外,学校里的那些GPU不是随时能用的。

网友Lucas Roberts表示,自己上个月曾跟德州的一位教授聊过,他说学校的 GPU 一次最多只能跑24小时,时间一到就得保存进度(checkpoint),然后重新排队跑下一个任务。

后来他好不容易给实验室搞到经费买了几张卡,这才实现了跑任务「不断连」。

据他所知,这种24小时强制中断的规定在其他高校也挺普遍的。

打开网易新闻 查看精彩图片

然而,LeCun当场反驳这一观点,透露NYU是全美所有学术机构中,拥有最大规模的GPU集群。

具体数字——500张H200,比普林斯顿还要大。

打开网易新闻 查看精彩图片

有的高校,自建AI工厂

不过,也有一些高校条件会好一些。

微软研究院前高级研究员,威廉与玛丽学院助理教授Jindong Wang表示,实验里每位学生配备6张GPU,还有云集群可用。

打开网易新闻 查看精彩图片

Vector研究所研究总监,多伦多大学统计与计算机系教授Dan Roy表示,他们会给每位学生都配备1张GPU。

打开网易新闻 查看精彩图片

更豪气的学校,比如得克萨斯大学奥斯汀分校,直接为自家的AI基础设施购买了超过4000张Blackwell GPU。

加上原有的设备,UT Austin总共将拥有超过5000张英伟达GPU。

而且,据称还是由他们自己的发电站来提供加持。

打开网易新闻 查看精彩图片

这些英伟达GB200系统和Vera CPU服务器,将加入全美最大的学术超算「Horizon」,为UT Austin提供学术界最强悍的AI算力。

这种级别的算力意味着,UT Austin完全有能力从零构建开源的大语言模型。

打开网易新闻 查看精彩图片

无独有偶,加州州立理工大学也在启动一个由英伟达DGX加持的「AI工厂」——

它配备了4套NVIDIA DGX B200系统,并整合了高性能存储、网络设施以及NVIDIA的全套AI软件栈。

打开网易新闻 查看精彩图片

有了这套系统,那些以前在标准硬件上需要数月才能完成的研究任务,例如分析数十万个视频文件,现在只需几天即可完成。

打开网易新闻 查看精彩图片

反观国内,GPU在高校的分布情况也不均衡。

知乎上一个话题下,硕博生纷纷讨论做实验用的显卡。

打开网易新闻 查看精彩图片

北京某高校计算机硕士称,已申请到研究院公用服务器。

打开网易新闻 查看精彩图片

还有更可怜的,某985学生自曝全组只有一张3080,还得自费租GPU。

打开网易新闻 查看精彩图片

参考资料:

https://x.com/FrancoisChauba1/status/1997095264923078856?s=20

https://news.utexas.edu/2025/11/17/ut-eclipses-5000-gpus-to-increase-dominance-in-open-source-ai-strengthen-nations-computing-power/

https://x.com/EpochAIResearch/status/1997040687561449710

https://epoch.ai/data-insights/gpt-4s-trainable

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!