全文 3,000字 | 阅读约 8 分钟

打开网易新闻 查看精彩图片

(Latent Space播客 Jeff Dean访谈精彩片段)

过去两年,AI 圈追问的是模型有多聪明。但聪明只是起点。

在 2026 年 2 月 13 日这期 Latent Space 对谈中,Jeff Dean 提出了三个更关键的问题:能力从哪里来、成本能不能降下来、复杂任务能不能啃下来。

这三个问题,对应 AI 下一轮的三个核心指标:

  • 能力来源:蒸馏、推理、多模态

  • 成本结构:能耗与延迟

  • 世界理解:从长上下文到可执行

如果只把 AI 当聊天工具,这些看起来只是无关紧要的小细节。但如果你想把它嵌入产品、融入业务流,它们就成了能否规模化的硬性门槛。

指标一|能力来源:蒸馏、推理、多模态

大模型越来越多,但真正能用起来的并不多。问题出在哪?企业难以稳定获取能力、难以规模化复制。

在 Google 的视角里,解决这个问题需要三个环节的配合。

1、前沿模型:能力的源头

能力从哪里来?想要一个好用的小模型,前提一定是你先有一个更强的大模型。

这不是规模崇拜,而是技术路径决定的。今天大家用得最多的是 Flash,但 Flash 的能力来自更高阶的 Gemini Ultra 通过蒸馏获得。换句话说,小模型之所以越来越能干,是因为它背后有一个更强的老师在教。

能力的上限取决于前沿模型,普及的下限取决于蒸馏技术。

所以每一家都在持续投入顶级模型,目的是让下一代人人可用的模型更可靠、更强大。

2、推理能力:真正的分水岭

回看去年所有突破性的能力场景,比如复杂编程、数学解题、多步骤任务,会发现它们都依靠推理路径完成。

进步有多明显?去年模型还只能写简单函数,今年已经能分析可再生能源部署、写成报告。

这种能力跃迁来自推理路径的进化。具体来说,

  • 就是在语言模型里引入强化学习,

  • 让模型学会多步尝试与修正,

  • 把困难问题拆成更小的环节。

对企业来说,这意味着:未来能真正创造价值的模型,一定来自推理能力的增强而不是单纯的参数膨胀。

3、多模态:从懂语言到懂世界

除了文本,还有一类信号同样关键:视频、激光雷达、医学影像、机器人轨迹,这些非文本数据。

比如把一段包含 18 个体育名场面的 YouTube 视频丢给模型,它能自动生成结构化表格,列出事件、日期和描述。

这背后的能力,是把“视觉内容”转化为“可供使用的信息”。

为什么这很重要?因为无论是自动驾驶、工业、医疗,还是未来的智能体执行任务,它们要处理的都不是段落文本,是来自真实世界的信号。 能不能读懂世界,将决定模型的应用边界。

说回开头那个问题:如何稳定获取能力、如何规模化复制?

答案藏在这套组合拳里:前沿模型提供通用能力,蒸馏把能力变成可规模使用的产品。推理增强让模型从回答问题走向解决问题,多模态让模型从懂语言进化到懂世界。

如果一家企业今天只盯着单一的模型跑分,没有这套完整的路径,它很快就会遇到上限。

指标二|成本结构:能耗与延迟

能力有了,下一个问题是:企业能不能大规模用起来。

Jeff Dean 给了一个残酷的事实:芯片内部读写数据(SRAM),能耗是1;从显存读写(HBM),能耗要翻一千倍。

这个千倍差距直接决定了推理成本的天花板。

1、能耗结构决定规模上限

在很多企业眼里,推理成本只是花钱多少的问题。但硬件能耗才是真正的瓶颈。

在 Google 这种全球级别的规模下,这个约束体现得尤其明显。上下文更长、视频理解更重、多模态吞吐更大、推理链更复杂,每一项能力都在推高能耗。能耗降不下来,功能再强也落不了地。

2、批处理的核心作用是降低能耗

批处理把一次次计算合并,能耗开销会大幅下降。吞吐量提升只是附带效果。

这解释了一个现象:同样的模型在不同平台上成本差距很大,根源往往在底层能耗结构。

各大公司重新设计推理引擎,瞄准的就是这个。

3、从离线计算到实时任务

过去行业盯着 FLOPS、吞吐量,但当 AI 开始执行实时任务,延迟成了新瓶颈。

智能体执行一个工作流,中间需要不断做临时决策、规划步骤、修正失败的尝试。这个过程包括多次调用、不断推演、分阶段执行。只要延迟稍微拖一下,整个执行链条都会卡住。

Google、OpenAI、Anthropic 都在强调低延迟,原因就在这:延迟越低,AI 越能参与真任务;延迟越高,AI 就只能停留在聊天。

4、TPU 的意义:适配下一代模型

TPU 在硬件设计上选了另一条路:互联结构更适合长上下文和稀疏模型。 长上下文意味着更大规模的记忆操作,稀疏模型意味着大量节点之间要高效通信。这两件事都不是简单堆芯片就能解决的。

TPU 的结构决定了未来很多能力(长上下文、检索、稀疏路由)能否真正跑得动。

这已经成了影响整个 AI 产品方向的基础条件。

这一节的核心逻辑是:能耗结构解决不了,再强的模型也无法规模化;延迟降不下来,AI 就做不了实时工作。未来能不能真正跑通 AI 应用,看能耗结构。

指标三|世界理解:从长上下文到执行

能力有了、成本问题明确了,接下来是:模型能不能做复杂任务。

1、上下文长度只是起点

很多公司还在宣传自己的上下文长度升级到 128k、1M。但单纯的“大海捞针”(Single-needle)测试已经过时,即便是现在的"多针检索"也还不够。

什么意思?单针是找一个线索,多针是找多个线索,但现实任务面对的是海量候选信息。

如果模型只是能塞进更多内容,但不会分辨什么重要,仍然做不了复杂任务。真正的能力是:主动检索需要的信息、自动过滤无关内容、整合成能执行的行动。

就像使用搜索引擎一样。

2、处理世界的原始信号

多模态能力变得关键,因为现实任务要处理的不只是文本。自动驾驶要看激光雷达、工厂要看机械臂轨迹、医疗要看影像,这些都是来自真实世界的原始信号。

模型需要把这些信号转化为可供决策的信息。看懂激光雷达点云,才能规划驾驶路径;读懂医学影像,才能辅助诊断。

这意味着模型开始从理解文档进化到理解物理世界。

3、从理解到执行

Google 搜索就是个具体例子。把 Gemini 深度整合进搜索后,它不再只是返回一堆链接,而是理解用户意图、从全网提取关键信息、重组为一份可直接执行的摘要。

这个过程需要三个能力配合:

  • 看懂现实场景(通过多模态)、

  • 找到关键信息(通过更聪明的注意力机制)、

  • 把信息连成可执行的步骤(通过强推理链)。

这三件事正在合并成未来模型的基础能力。长上下文是入口,让模型接触足够多的信息。多模态是触角,让模型接触真实世界的原始信号。强推理是大脑,把理解转化为行动。

三者配合,模型才能真正理解世界、承担任务。

结语|结语|下一轮AI,就看这3条

过去问题是:模型聪明了多少。

下一轮的问题是:能不能用起来、成本能不能降下来、复杂任务能不能做下来。

能力来源、成本结构、世界理解,这三条决定了谁能把 AI 真正放进业务里。

识自AI

本文由AI深度研究院出品,内容整理自Jeff Dean在Latent Space最新访谈等网上公开素材,属评论分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=F_1oDPWxpFQ

https://www.latent.space/p/jeffdean

https://www.radio.net/podcast/latent-space-podcast

https://podcasts.apple.com/id/podcast/owning-the-ai-pareto-frontier-jeff-dean/id1674008350?i=1000749498954

https://www.radio.net/podcast/latent-space-podcast

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵