打开网易新闻 查看精彩图片

2024年,全球AI公司烧掉1200亿美元买算力,却没人能说清:大模型到底从训练数据里学到了什么?谷歌DeepMind研究总监Nando de Freitas在最新长文中抛出一个反常识观点——AI不是"学习"数据,而是在激活一个早已存在的"潜在场"。这篇被内部称为"Potential理论"的文章,正在硅谷引发激烈争论。

3.5万亿参数的幻觉:我们误解了"创造"

3.5万亿参数的幻觉:我们误解了"创造"

De Freitas开篇就怼了行业通病。开发者爱说"我突然有了想法""灵感从天而降",这种叙事让创造听起来像无中生有的魔法。GPT-4、Claude、Gemini的发布会PPT都在强化这个神话:参数越多,能力越强,仿佛智能可以凭空涌现。

但De Freitas说,这 rarely is what is happening。

他提出一个让工程师不舒服的类比:所谓"原创",其实是激活 accumulated experience(累积经验)。旧模式、记得的结构、半忘的失败、吸收的习惯、未明说的判断——这些东西始终在场,即使创造者自己意识不到。解决方案不是从空无中浮现,而是从一片"已满的场"中浮现。

他给这个场起了个名字:Potential(潜在场)。

这不是比喻。De Freitas明确区分:Potential不是一袋事实,而是一个结构化的 latent possibility(潜在可能)场域。它包括有意识记住的,也包括无意识吸收的;包括刻意学习的,也包括反复暴露后自动内化的。技术知识、习惯、本能、审美判断,全部堆叠在这个场里。

目标不是发明,是"照亮路径"

目标不是发明,是"照亮路径"

打开网易新闻 查看精彩图片

这里有个反直觉的转折。De Freitas认为,目标(objective)本身并不创造想法——它只是在Potential场中打开一条路径。目标出现前,场域丰富但无方向;目标出现后,某些区域被激活。

换句话说,目标不是从空无中发明形式,而是通过已有之物创造可见性。

这个描述惊人地贴合大模型的实际行为。当你向GPT-4提问时,它并非"思考"后生成答案,而是在参数空间的超高维流形中,沿着概率梯度"行走"。De Freitas的Potential理论,某种程度上给这个黑箱过程提供了概念框架:训练数据构建场域,提示词(prompt)打开路径,采样策略决定走哪条分支。

但关键差异在于:人类开发者的"路径"是复数的、可感知的。De Freitas描述的真实开发体验——看到碎片、倾向、架构、部分结构、同一冲动的不同措辞——这与大模型的单一路径采样形成尖锐对比。人类在"多可能性的景观"中游走,而当前AI只能输出一条路径的终点。

命名即固化:为什么"概念"比"参数"更重要

命名即固化:为什么"概念"比"参数"更重要

De Freitas理论的第三个支柱,是naming(命名)的作用。这不是贴标签,而是给被选中的可能性足够身份,使其稳定化。命名后的形式可以被重返、测试、精炼、拒绝、辩护、分享。命名前,它只是倾向或直觉;命名后,它才 solid enough to enter development(足够坚实以进入开发)。

这个观察击中了当前AI的核心痛点。

大模型有"概念"吗?2023年Anthropic的"电路追踪"研究发现,模型内部确实存在可解释的特征方向——比如"金门大桥"神经元会在多种语境下激活。但这些"概念"无法被模型自身命名、重返或辩护。它们是统计关联的副产物,而非De Freitas意义上的 stabilized form(稳定化形式)。

打开网易新闻 查看精彩图片

更麻烦的是:命名后的形式会累积,形成叙事。De Freitas强调,叙事不是事后装饰,而是"使工作可被思考"的必要部分。开发者先对自己讲述,再对他人讲述,这个讲述过程本身就在塑造解决方案的连贯性。

当前AI没有这个过程。它的"解决方案"是单次前向传播的产物,没有自我叙事,没有连贯性的迭代建构。De Freitas的理论无意中划出了一道边界:拥有Potential、目标导向的路径开启、命名与叙事累积——这三者共同构成他所谓的"可确定的开发过程"(determinable process),而现有AI系统至少缺失后两者。

对AI训练的残酷暗示

对AI训练的残酷暗示

De Freitas的文章没有直接讨论AI,但 implications 足够明显。

如果Potential是"结构化场域"而非"数据袋",那么当前主流的训练范式——更多数据+更多参数+更多算力——可能正在撞墙。Scaling Law(规模定律)的边际收益递减,或许不是因为数据不够,而是因为"场域结构"的构建方式错了。盲目堆积token,就像往图书馆里塞书却不建立索引系统;书越多,找东西越难。

另一个尖锐问题:人类Potential的形成需要"反复暴露"和"半 remembered failures"——失败、遗忘、时间沉淀都是必要成分。但AI训练是单方向的梯度下降,没有真正的失败(只有loss),没有遗忘(只有权重覆盖),没有时间维度(所有数据同时存在)。De Freitas描述的"累积"是层化的、有历史的,而模型参数是扁平的、无时间的。

谷歌内部对这篇文章的反应两极。一位Gemini团队成员在Blind上发帖称,"Potential理论应该影响我们的多模态架构设计";另一位则嘲讽,"这是哲学系入侵ML(机器学习)的又一例证"。De Freitas本人没有回应这些讨论,但他的X账号背景图已经换成了手写体的"Potential"一词。

文章结尾,De Freitas留下一个未完成的句子:"A solution..." 然后戛然而止。这个形式上的选择本身就在演示他的理论:命名未完成,叙事仍在累积,Potential场域保持开放。

如果大模型也需要"命名"才能拥有真正的概念,我们需要重新设计什么——损失函数,架构,还是训练目标本身?