机器之心发布
2026 年即将到来,AI 的发展也已经进入了一个新的阶段:我们已经取得了惊人成就,却同时面临进一步增长的瓶颈。
新加坡国立大学(NUS)的尤洋教授近期发表了一篇深度分析:《智能增长的瓶颈》。
原文链接:https://zhuanlan.zhihu.com/p/1989100535295538013
在这篇分析文章中,尤洋教授从技术本质出发,直指智能增长的核心矛盾,为我们揭示了 AGI(通用人工智能)的可能路径。
观点速览
智能增长的本质不是架构变革,而是算力如何转化为智能:AI 的核心智能来自于预训练及其 Loss 结构(例如 GPT 的 Next-Token Prediction)。这些机制更像是把算力转化为智能的方法,而非智能本身。
现有智能增长遇到瓶颈的根源:当前范式(Transformer + 超大算力)在面对进一步增长时, 难以充分消化不断增长的算力资源,这导致了所谓 “预训练红利递减”。
算力并不是无限扩展就能解决问题:即使算力指数级增长,如果现有算法无法有效利用这些计算资源,智能提升仍将受限。
未来方向不在于工程优化,而是底层范式突破:文章探讨了更高精度计算、更高阶优化器、更灵活的 Loss 设计、超大规模训练策略等潜在突破点。
AI 未来仍然乐观:智能增长瓶颈虽强,但仍有可能通过更好的算力利用方式被克服。预训练可能才刚刚开始,大模型智能仍有巨大的发展空间。
AGI 的未来将如何发展?让我们拭目以待。
尤洋教授,《智能增长的瓶颈》作者
以下为其分享原文:
智能增长的瓶颈
2026 年已至。在 ChatGPT 诞生三年多后的今天,关于我们的智能水平是否令人满意,以及未来是否还能强劲增长,笔者想分享一些个人的看法。如有谬误,恳请大家指正。
为了能深入探讨智能的本质,本文将不涉及产品易用性、成本等商业化或落地问题,因为这些本质上与智能突破本身无关。
1. 智能的现状
什么是智能?其实目前并没有一个明确的定义。
从最近图灵奖得主 Yann LeCun 和诺贝尔奖得主 Demis Hassabis 关于 AGI 的争论中,我感受到即便是世界上最顶尖的专家也无法准确定义智能。
个人感觉,AGI 很难定义,其标准也会随着时代的变化而变化。我依然记得十几年前,普通人对人脸识别技术感到不可思议。如果把今天的 ChatGPT 拿到 2006 年,相信那时候的很多人会毫不怀疑地认为我们已经实现了 AGI。
我觉得智能的核心是预测创作
我认为如果达到以下这种状态,那么就离 AGI 不远了:
- 如果你选择接受哪个工作 Offer,完全听从 AI 的意见。
- 如果你买足球彩票预测世界杯冠军,完全听从 AI 的意见。
- 如果你有健康问题,会完全采用 AI 制定的方案去治疗。
- 你分辨不清楚一部奥斯卡最佳电影是否是由 AI 生成的。
- 石油公司的勘探团队用 AI 替代了所有数值算法。
- AI 能指导初级高铁工程师在 5 分钟内排除高铁的疑难故障。
- AI 能研制出一款专杀癌细胞且不破坏好细胞的药物。
- AI 能通过某区域的地下结构数据,精准预测地震的时间。
- 等等……
今天,我们显然还没实现这些。未来能否实现,取决于我们能否克服智能发展的瓶颈。
2. 智能发展的瓶颈
今天,我们经常听到一些关于智能发展遇到瓶颈,或者预训练红利已尽的观点。何为瓶颈?我们先探讨一下智能从何而来。
过去 10 年,AI 大模型的技术本质,是把电力能源通过计算过程转化为可复用的智能。技术的好坏取决于这个转化效率的高低。类似的表述,我也听月之暗面的朋友提及过。
今天模型的智能本身,最主要还是来自预训练(往往是自监督方法),仅有少量来自微调或强化学习。
为什么?先算一笔浅显的经济账:因为预训练消耗的算力最多,消耗的能源也最多。
当然,预训练、微调、强化学习本质上都是在计算梯度以更新参数。如果有合适的海量数据和 Loss 函数,未来在预训练阶段采用 SFT(监督微调)或特殊的强化学习方法也有可能。
从智能增长的角度,我们甚至不用刻意区分预训练、SFT 和强化学习。它们的区别主要在于更新参数的次数与规模。从计算本质上看:预训练、微调、强化学习(比如 GRPO)都是在计算梯度的类似物,并用它来更新参数。
那么,能源从何而来呢?这就是 GPU 或算力。英伟达在这点上做了最大的贡献。虽然英伟达有很多先进的技术,比如更强的 Tensor Cores、Transformer Engine、互联技术(NVLink / 网络化 NVLink)、软件栈等,但我先试图用一句话说清楚英伟达过去几年在技术上做的最重要的事情,即其 GPU 设计的核心思路。
简而言之,英伟达过去几年最重要的路线是:在同样的物理空间里堆更多 HBM(高带宽内存)
HBM 虽然带宽很高,但依然是计算核心之外的内存(Off-chip from logic die),与计算核心存在不可忽略的物理距离。为了掩盖内存访问延迟,GPU 只能依赖超大的 Batch Size(批处理量)和大规模并行来处理数据。英伟达 GPU 本质上就是一台并行计算机。
因此,英伟达对算法层和软件层的要求非常明确:必须提供足够大的 Batch Size 或并行度。
面对英伟达的要求,很多研究团队都提出了自己的方案。比如 RNN、Transformer、卷积序列模型(CNN for Sequence)等等。甚至有人尝试用 SVM 来处理大规模序列数据。
那为什么 Transformer 率先脱颖而出?因为 Transformer 也是一台并行计算机。
原初的 Transformer 架构
这里我引用一下 Ilya Sutskever 的一句话:“Transformers: parallel computers in disguise”,直白的意思是:Transformer 本质上是一个被神经网络外壳包裹起来的并行计算机。这也是 Transformer 最先能够显现智能的核心原因,因为它的并行计算特性完美匹配了 GPU 的并行计算单元
同时,OpenAI 完美地实现了Next-Token Prediction这个 Loss 函数,它给了 AI 大模型近乎无限的训练数据。理论上 BERT 的 Loss 函数(完形填空和 Next Sentence Prediction)也可以提供近乎无限的数据,但在实践中,Next-Token Prediction 的效果明显更好。
我推测,这个 Loss 函数最小化了人类的干预 —— 它不是人为设计的,而是大自然在进化过程中赋予人脑的逻辑。并且,Next-Token Prediction 其实是预测未来,而 BERT 的完形填空其实是把过去的信息和现在的信息串联起来。这就好比让一个足球专家根据历史数据和当天的比赛结果去解释合理性,几乎所有专家都能做到;但是,如果让专家去预测每一场比赛的精准比分,他们会经常出错。这再次说明了,预测 (Prediction) 是智能的核心能力体现,难度远高于解释 (Explanation)
其实我挺佩服 OpenAI 团队能够坚持下来的勇气。2018 年时,BERT 在媒体上的影响力几乎完全碾压了 GPT,且当时 OpenAI 的 AI 研发团队体量跟 Google 比起来微不足道。很佩服他们没有放弃 Next-Token Prediction,也没有转向类 BERT 的训练方式。真理往往需要时间去检验。
BERT 对比 GPT
同时,以 Transformer 为核心的方案收获了 “一箭双雕” 的双重优势:
- 模型的每层参数量越多,并行度就越高 (Tensor Parallelism)。 所以,只要通信代价不显著增加,能同时利用的算力就越多。这点需要点赞行业领导者的先见之明。几年前,我看到 CNN 时代有研究人员试图把模型往深度发展,比如设想 1000 层的神经网络。其实非常深(层数非常多)的神经网络是不利于有效利用算力的,因为流水线并行提供的并行度上限不高。
- Transformer 的不同 Token 可以同时计算。 序列长度越长,并行度就越高,只要通讯代价不显著增加,能同时利用的算力就越多。Sequence Parallelism 与 Data Parallelism 互补,进一步提供了更多的并行度。
就这样,我们见证了 GPT-1、BERT、GPT-2、GPT-3、ChatGPT、Gemini 一步一步把智能提升到了今天的高度。
到这里,大家大概也清楚为什么 AI 模型的智能增长会遇到瓶颈了 —— 因为我们现在的范式无法充分消化持续增长的算力
假定一次模型训练和微调消耗的浮点数计算次数(即程序员面试中的计算复杂度的具体值)从 10ⁿ 变成 10ⁿ⁺³ 时,我们是否获得了一个显著更好的模型?
其实,很多时候我们把 “效率优化技术” 和 “智能提升技术” 混淆了。比如,明天我提出一个新的架构,实验发现达到跟 GPT-5 类似的效果,只需要 20% 的参数量或计算量。这其实更多是落地或商业化问题;智能的终极问题是:使用同样的浮点数计算次数(而非 Token 量),能否获得一个更好的模型。浮点数计算次数,才是算力最基本、最本质的计量单位。
3. 未来的方法探讨
首先从硬件层来看,我们需要持续产生更大的绝对算力,这不一定局限于单位芯片上的算力提升。
前沿规模机器学习模型训练所用计算量的趋势,图源:Epoch AI
即便单位芯片上的算力没有大幅度提升,我们通过集群的方式也能构建更大的绝对算力。这里需要平衡的是:聚集芯片带来的性能增长,要高于 “芯片或服务器之间通信增长带来的负担”。
所以,具体的硬指标就是:增长或至少维持住 “计算开销/通信开销” 这个比值。这是整个 AI 基础设施层最核心的技术目标。要想实现这个目标,我们需要扩展性更好的并行计算技术,无论是软件还是硬件。
更上层的探索中,我们需要让 AI 模型在单位时间内 “吃下” 更多能源,并真正将其转化为智能。个人感觉大概有以下几点方向:
- 更高精度的计算能力。 今天,从 FP16 到 FP32,甚至 FP64,模型智能并未出现明显跃升。这本身就是一个瓶颈。理论上,更高精度应当带来更可靠的计算结果,这一点在传统科学计算中早已得到验证。这个观点可能与主流机器学习共识并不一致,而且真正发生可能需要很长时间,但从本质上看,智能仍然需要更精准的计算。这与过拟合并无直接关系,过拟合的根源在于数据规模不足或参数与数据不匹配。
- 更高阶的优化器。 Google 的朋友告诉我,他们有时候已经不用类 Adam 优化器,而是用更高阶的优化器在训练模型。高阶优化器理论上能在学习过程中给模型更好的指导,算出更好的梯度,这是模型智能提升的本质。当然,高阶优化器的全面替代可能需要很长的时间。
- 扩展性更好的模型架构或 Loss 函数。 我们仍然需要一种扩展性更好的整合和利用算力的方式。这点我们需要注意:优化效率不一定能提升智能。比如 Mamba 出来的时候,宣传重点是吞吐量的提升,用更小的模型获得同水平的智能。但是,本文关注的是:在最健全的 AI 基础设施上,用最大的可接受成本,能否训出更好的模型,获得更高的智能。比如,今天 Google 告诉你:预算 300 亿美元,半年内给我训出一个更好的模型,不考虑省钱问题,花 10 亿和花 100 亿没区别。在这个场景下,你最终是否会用 Mamba 这样的架构?你是否需要设计更好的 Loss 函数?
- 更多的 Epoch 和更好的超参数。 迫于成本压力,我们今天其实并没有对 AI 模型进行深度优化,甚至没有深度搜索超参数。这其实也是我之所以对 AI 模型的智能继续增长有信心的原因。我这里的意思不是直接训练更多的 Epoch。明知无效却生硬地跑更多 Epoch 其实是方法不对(比如参数量和数据量不匹配)。但是,根本上,更多的 Epoch 代表更多的浮点数、更多的能源。我们需要找到方法去 “吃下” 更多能源,并转化出更高智能。
有些技术对大规模落地 AI 非常重要,比如低精度训练、剪枝、量化、蒸馏、PD 分离等推理优化技术。但是,在一个 “算力转智能” 极端有效的情况下,这些技术跟提升智能上限无关。笔者对这些技术的贡献者非常尊重,它们在实际落地中至关重要,只是与本文探讨的主题无关。
智能增长归根到底还是算力利用问题。假定算力无限大,比如一个集群的算力达到今天的万亿倍,可能我们会发现更简单的模型结构比 Transformer 和 Next-Token Prediction 的扩展性更好。从 SVM 到 CNN、LSTM、BERT、GPT、MoE:我们始终在寻找能更高效利用算力且具备更好扩展性的方法。这个过程中,核心原因是问题的规模在不断扩大。
我们在 AI 时代到来之前便已实现天气预报,然而至今仍未能攻克地震预报,尽管两者本质上都是针对地球数据的研究。究其原因,地下结构涉及比大气更加错综复杂、且变量规模呈指数级庞大的动态多模态数据。这种传统计算模式难以驾驭的高维复杂性,恰恰是未来 AI 技术大有可为的机遇所在。
所以,我有信心我们未来会不断找到更高效的算力使用方式。虽然过程中可能会有很多困难和低潮,但大趋势不可阻挡。
最后,借用 Richard Sutton 教授的一句话收尾:人工智能 70 年的研究留给我们最大的经验教训是,依托计算能力的通用方法才是最终的赢家,且具备压倒性的优势。
热门跟贴