“回头看,我们应该更早聚焦代码,这点我不否认”。谷歌联合创始人谢尔盖·布林(Sergey Brin)说道。
这是他回归谷歌两年后首次公开亮相,在这场硅谷 AGI House 活动上,他接受了一轮开放式问答。他谈到了竞争格局、AGI(通用人工智能)的定义、谷歌正在押注的技术路线,以及他自己也没有答案的几个问题。
如果你把整场问答所有信息拼凑起来,会发现它不仅反映了谷歌的现状,更是整个 AI 行业的截面。在这个截面里,一场 AGI 定义之争正在悄然发生,而这个争议的结果将直接决定 AGI 下一步走向。
问答接近尾声时,有人问布林对当前竞争格局的看法。
"大家都专注于代码编程,其他实验室在该领域已经取得了显著的进步。现在 GPT-5.5 占很大优势,不过 Gemini 3.5 Flash 在速度上仍具备明显优势。"布林回答道,"我们应该更早聚焦代码,这是我们现在正在做的事。"
为什么代码之争如此关键?
表面上看,代码能力强的模型更容易获得开发者青睐,进而积累更多的用户反馈,形成产品层面的正循环。但布林指出,更深层的逻辑远不止于此。
他提到,Gemini 目前大量精力投入在"用工具构建工具"上,即让 AI 监控自己的训练过程,生成自身的训练数据。这意味着,当一个模型的代码能力足够强时,它就能写出更好的训练脚本,用以训练更强的下一代模型,而更强的模型又能写出更好的脚本……这是一个自我加速的正反馈飞轮。代码能力越强,自我改进越快。这才是代码之争的本质。
布林说"我们进入得偏晚",说的正是这个飞轮,谷歌在抢占这个自我加速入口上确实慢了一步。
但入场券只是开始。更根本的问题是,这场竞争的终点究竟在哪里?这取决于 AGI 如何被定义。
布林在问答中提到了两种截然不同的定义。第一种认为,AGI 是 AI 能够真正自我提升的那个节点。用这个标准衡量,当前的大模型已经非常接近,甚至某种程度上已经达到。第二种则认为,AGI 意味着 AI 能做任何人类能做的事。布林表示,尽管他之前的直觉认为第一种是正确的,但现在他倾向于认为后者的定义更正确。
这两个定义代表着完全不同的终点,也对应着完全不同的技术路线。
如果终点是“能做任何人类能做的事”,那么今天的 AI 距离 AGI 仍有结构性距离。不是参数调不到位,而是整个能力模块的缺失:理解物理世界、与物理世界交互、以及在没有文字描述的场景里做判断。
这个判断,直接决定了谷歌下注的方向。
谷歌在赌什么:从语言到物理世界
布林对 AGI 定义的倾向,也是谷歌技术路线的底层逻辑:光做好语言不够,必须覆盖到物理世界。
当前大多数顶尖 AI 的核心架构是 Transformer,这是一种通过大量数据训练、擅长处理序列信息(文字、代码等)的神经网络结构。它的强项是语言理解,与物理世界脱节,因为它无法感知物理空间。它所学的知识全部来源于我们写下的文字,而这些描述性的文字是无法提供与物理世界交互的感受的。
那么,这样的边界该如何被突破?
布林提到,谷歌的多模态模型 Gemini,以及专门处理图像和视频的 Omni 模型,训练方式其实并无本质差异,即使用同一套 Transformer 架构和同样的训练流程,只是同时输入了文本、图像、视频。令人惊讶的是,语言理解能力和视觉理解能力在训练过程中自然地收敛对齐了。这便是涌现(emergence):能力不是被设计出来的,是自己冒出来的,是随着规模扩大自然而然出现的。涌现在 AI 史上确实发生过,比如,没有人明确训练 GPT-3 做算术,但它会。
视频是目前物理世界最密集的记录媒介之一,包含足够多的物理规律和巨大的信息量供模型学习。因此,谷歌的赌注是:如果模型学会预测视频中下一帧会发生什么,物理直觉也许能够自然涌现,就像语言涌现了算术,图像训练涌现了几何理解一样。
这正是 World Model(世界模型)进入谷歌核心战略的原因。世界模型是一类专门为理解和预测物理环境而设计的 AI 系统,它尝试在内部建立一个物理世界的仿真器以理解物体如何运动、力如何传导、动作会带来什么后果。
当前 AI 的核心缺口正是对真实世界的情境理解,谷歌 DeepMind 于 2025 年发布的 Genie 3,正是这一方向的具体落地:它能根据文字指令实时生成可交互的三维世界,并训练 AI 智能体在其中行动。与此同时,Gemini Robotics 系列模型则将这套能力延伸到了真实物理空间,让机器人能够在没有精确指令的情况下,自主规划并完成复杂的多步骤任务。
而这,正是谷歌整条 ASI(超级智能)路线的核心攻坚方向。ASI 是 AGI 之后的下一个阶段,如果说 AGI 是"能做任何人类能做的事",那么 ASI 是"在几乎所有认知任务上全面超越人类"。ASI 不仅仅是执行,还能提出人类从未想到的问题、发现人类看不见的规律。谷歌现在所做的一切,都是在为这个目标铺路。
这条逻辑链,在历史上有充分的先例支持。但它的成立,依赖一个没有人能在理论上证明的根本假设:预测,等于理解吗?
预测和理解之间的差距
1980 年,哲学家约翰·塞尔提出了“中文房间”思想实验:一个不懂中文的人被关在房间里,手持一本超厚的规则手册,规定了“收到这串符号就输出那串符号”。外面的人认为房间里有人懂中文,但房间里的人根本不知道自己在说什么。完美的输入输出匹配,不等于理解。
把房间里的人换成语言模型,把规则手册换成训练权重,就是现在 AI 的场景。所谓预测,是模型看过一千个视频后,学会了玻璃杯从桌子掉下去,下一帧该是碎片。而真正的理解,是知道这背后的原因,比如:重力加速度、材料脆性、动能转化,从而能推断出,当同样的杯子在月球上落下时,碎片散落的方式会不同。
预测是记住了结果。理解是掌握了规律,能迁移到没见过的场景。谷歌的假设便是当预测做到极致时,会自动转化成理解。
图灵奖得主、前 Meta 首席 AI 科学家杨立昆(Yann Lecun)是这个假设最坚定的反对者。他的核心论点是:语言和视频描述的是世界的投影,而并非世界本身。因为一个读遍了所有描述游泳文字却没有实践的人,是不会游泳的。物理交互所需要的因果理解是超越书本上的统计学习的,这是当前 AI 领域的前沿分歧,也是布林的押注面临的最大风险。
预测与理解的鸿沟是谷歌押注面临的外部质疑,但内部还潜藏着另一个风险。布林提到的“用工具构建工具”,即让 AI 生成自身训练数据,有可能导致 Model Collapse(模型坍缩)。
当 AI 生成的数据被用来训练下一代 AI,再用那一代 AI 生成数据训练再下一代,这个循环里,每一轮都会有信息损失。就像复印再复印,图像会越来越模糊。模型可能在某些维度越来越强,但在另一些维度悄悄退化,而且很难从外部察觉。
尽管布林的表述里没有提到这个风险,但它会是未来几年验证自我改进飞轮这条路线是否可行的关键指标之一。
纵观整场问答,布林的回答中带着很多不确定性,“猜测”“感觉”“可能”等模糊字眼反复出现,这正是这个领域的真实写照:发展之迅猛,让我们永远无法准确预测下一步。没有人知道预测是否能转化为理解,没有人知道涌现的边界在哪里,没有人知道自我改进飞轮会在哪里断裂,也没有人知道 Model Collapse 会在什么规模上变得不可控。
这场问答的价值,不在于布林给出了什么答案,而在于他展示了哪些问题还没有答案。而那些问题,才是接下来几年真正值得押注的地方。
参考资料:
https://www.youtube.com/watch?v=gsv5o8ANdDo
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴