全文 3,000字 | 阅读约 8 分钟
(Latent Space播客 Jeff Dean访谈精彩片段)
过去两年,AI 圈追问的是模型有多聪明。但聪明只是起点。
在 2026 年 2 月 13 日这期 Latent Space 对谈中,Jeff Dean 提出了三个更关键的问题:能力从哪里来、成本能不能降下来、复杂任务能不能啃下来。
这三个问题,对应 AI 下一轮的三个核心指标:
能力来源:蒸馏、推理、多模态
成本结构:能耗与延迟
世界理解:从长上下文到可执行
如果只把 AI 当聊天工具,这些看起来只是无关紧要的小细节。但如果你想把它嵌入产品、融入业务流,它们就成了能否规模化的硬性门槛。
大模型越来越多,但真正能用起来的并不多。问题出在哪?企业难以稳定获取能力、难以规模化复制。
在 Google 的视角里,解决这个问题需要三个环节的配合。
1、前沿模型:能力的源头
能力从哪里来?想要一个好用的小模型,前提一定是你先有一个更强的大模型。
这不是规模崇拜,而是技术路径决定的。今天大家用得最多的是 Flash,但 Flash 的能力来自更高阶的 Gemini Ultra 通过蒸馏获得。换句话说,小模型之所以越来越能干,是因为它背后有一个更强的老师在教。
能力的上限取决于前沿模型,普及的下限取决于蒸馏技术。
所以每一家都在持续投入顶级模型,目的是让下一代人人可用的模型更可靠、更强大。
2、推理能力:真正的分水岭
回看去年所有突破性的能力场景,比如复杂编程、数学解题、多步骤任务,会发现它们都依靠推理路径完成。
进步有多明显?去年模型还只能写简单函数,今年已经能分析可再生能源部署、写成报告。
这种能力跃迁来自推理路径的进化。具体来说,
就是在语言模型里引入强化学习,
让模型学会多步尝试与修正,
把困难问题拆成更小的环节。
对企业来说,这意味着:未来能真正创造价值的模型,一定来自推理能力的增强而不是单纯的参数膨胀。
3、多模态:从懂语言到懂世界
除了文本,还有一类信号同样关键:视频、激光雷达、医学影像、机器人轨迹,这些非文本数据。
比如把一段包含 18 个体育名场面的 YouTube 视频丢给模型,它能自动生成结构化表格,列出事件、日期和描述。
这背后的能力,是把“视觉内容”转化为“可供使用的信息”。
为什么这很重要?因为无论是自动驾驶、工业、医疗,还是未来的智能体执行任务,它们要处理的都不是段落文本,是来自真实世界的信号。 能不能读懂世界,将决定模型的应用边界。
说回开头那个问题:如何稳定获取能力、如何规模化复制?
答案藏在这套组合拳里:前沿模型提供通用能力,蒸馏把能力变成可规模使用的产品。推理增强让模型从回答问题走向解决问题,多模态让模型从懂语言进化到懂世界。
如果一家企业今天只盯着单一的模型跑分,没有这套完整的路径,它很快就会遇到上限。
指标二|成本结构:能耗与延迟
能力有了,下一个问题是:企业能不能大规模用起来。
Jeff Dean 给了一个残酷的事实:芯片内部读写数据(SRAM),能耗是1;从显存读写(HBM),能耗要翻一千倍。
这个千倍差距直接决定了推理成本的天花板。
1、能耗结构决定规模上限
在很多企业眼里,推理成本只是花钱多少的问题。但硬件能耗才是真正的瓶颈。
在 Google 这种全球级别的规模下,这个约束体现得尤其明显。上下文更长、视频理解更重、多模态吞吐更大、推理链更复杂,每一项能力都在推高能耗。能耗降不下来,功能再强也落不了地。
2、批处理的核心作用是降低能耗
批处理把一次次计算合并,能耗开销会大幅下降。吞吐量提升只是附带效果。
这解释了一个现象:同样的模型在不同平台上成本差距很大,根源往往在底层能耗结构。
各大公司重新设计推理引擎,瞄准的就是这个。
3、从离线计算到实时任务
过去行业盯着 FLOPS、吞吐量,但当 AI 开始执行实时任务,延迟成了新瓶颈。
智能体执行一个工作流,中间需要不断做临时决策、规划步骤、修正失败的尝试。这个过程包括多次调用、不断推演、分阶段执行。只要延迟稍微拖一下,整个执行链条都会卡住。
Google、OpenAI、Anthropic 都在强调低延迟,原因就在这:延迟越低,AI 越能参与真任务;延迟越高,AI 就只能停留在聊天。
4、TPU 的意义:适配下一代模型
TPU 在硬件设计上选了另一条路:互联结构更适合长上下文和稀疏模型。 长上下文意味着更大规模的记忆操作,稀疏模型意味着大量节点之间要高效通信。这两件事都不是简单堆芯片就能解决的。
TPU 的结构决定了未来很多能力(长上下文、检索、稀疏路由)能否真正跑得动。
这已经成了影响整个 AI 产品方向的基础条件。
这一节的核心逻辑是:能耗结构解决不了,再强的模型也无法规模化;延迟降不下来,AI 就做不了实时工作。未来能不能真正跑通 AI 应用,看能耗结构。
指标三|世界理解:从长上下文到执行
能力有了、成本问题明确了,接下来是:模型能不能做复杂任务。
1、上下文长度只是起点
很多公司还在宣传自己的上下文长度升级到 128k、1M。但单纯的“大海捞针”(Single-needle)测试已经过时,即便是现在的"多针检索"也还不够。
什么意思?单针是找一个线索,多针是找多个线索,但现实任务面对的是海量候选信息。
如果模型只是能塞进更多内容,但不会分辨什么重要,仍然做不了复杂任务。真正的能力是:主动检索需要的信息、自动过滤无关内容、整合成能执行的行动。
就像使用搜索引擎一样。
2、处理世界的原始信号
多模态能力变得关键,因为现实任务要处理的不只是文本。自动驾驶要看激光雷达、工厂要看机械臂轨迹、医疗要看影像,这些都是来自真实世界的原始信号。
模型需要把这些信号转化为可供决策的信息。看懂激光雷达点云,才能规划驾驶路径;读懂医学影像,才能辅助诊断。
这意味着模型开始从理解文档进化到理解物理世界。
3、从理解到执行
Google 搜索就是个具体例子。把 Gemini 深度整合进搜索后,它不再只是返回一堆链接,而是理解用户意图、从全网提取关键信息、重组为一份可直接执行的摘要。
这个过程需要三个能力配合:
看懂现实场景(通过多模态)、
找到关键信息(通过更聪明的注意力机制)、
把信息连成可执行的步骤(通过强推理链)。
这三件事正在合并成未来模型的基础能力。长上下文是入口,让模型接触足够多的信息。多模态是触角,让模型接触真实世界的原始信号。强推理是大脑,把理解转化为行动。
三者配合,模型才能真正理解世界、承担任务。
结语|结语|下一轮AI,就看这3条
过去问题是:模型聪明了多少。
下一轮的问题是:能不能用起来、成本能不能降下来、复杂任务能不能做下来。
能力来源、成本结构、世界理解,这三条决定了谁能把 AI 真正放进业务里。
识自AI
本文由AI深度研究院出品,内容整理自Jeff Dean在Latent Space最新访谈等网上公开素材,属评论分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
https://www.youtube.com/watch?v=F_1oDPWxpFQ
https://www.latent.space/p/jeffdean
https://www.radio.net/podcast/latent-space-podcast
https://podcasts.apple.com/id/podcast/owning-the-ai-pareto-frontier-jeff-dean/id1674008350?i=1000749498954
https://www.radio.net/podcast/latent-space-podcast
来源:官方媒体/网络新闻,
排版:Atlas
编辑:深思
主编:图灵
热门跟贴