8月20日,Gemini 产品负责人 Tulsee Doshi与Google DeepMind 杰出研究员 Madhavi Sewak 共同接受了海外播客 Superhuman AI 主持人 Hassan 的专访。本次对话探讨了Gemini 模型系列的最新进展及其在现实世界中的应用,包括 Gemini 2.5 Pro 与 2.5 Flash 在构建 AI Agent 时的协同策略,“提示工程”到“上下文工程”的范式转变,国际数学奥林匹克竞赛(IMO)的胜利对模型通用推理能力的意义,AI 时代下创造力与“品味”等新必备技能的崛起,以及 Google 内部产品与工程团队的高效协作模式。

Madhavi Sewak 提出,利用像2.5 Pro这样强大的模型进行顶层规划,再由 2.5 Flash等轻量级模型驱动的子代理执行具体任务,是构建高效 AI Agent 的有效方法。双方一致认为如何让 AI Agent 有效维持和利用上下文与记忆,是整个行业面临的、尚未被攻克的关键难题。随着百万级上下文窗口的出现,关键技能正从“提示工程”转向“上下文工程”。大语言模型约每三个月就有一次迭代,未来的技术栈必须具备极高的灵活性,以适应这种惊人的发展速度。Tulsee Doshi认为,现有的 AI 基准测试很快会被模型的能力“刷爆”,行业需要持续革新评估方法,转向更能衡量综合、主观能力的体系,如模型行为和个性化。

01

Gemini 的开发者机遇

如果我是一名正在创建 AI Agent 公司的开发者,关于 Gemini 和 DeepMind,我应该关注哪些方面?你们是否发布过相关的论文或博客,来帮助开发者学习如何为 Gemini 系列模型编写提示的最佳实践?

Tulsee Doshi:我先说几点,然后请 Madhavi 补充。我认为有两点值得关注。首先,最核心的亮点是 Gemini 2.5 。我们为 Gemini 2.5 在构建 AI Agent 产品和应用场景方面的能力感到非常自豪。这主要体现在几个关键方面。第一是核心能力。例如,Gemini 在代码方面的性能,它能够显著提升代码生成的质量。我们看到,无论是将模型用于集成开发环境,还是用于构建端到端的应用程序,开发者们都对此反响热烈。

我们也看到,大家对使用 2.5 Flash这样的模型也表现出极大的兴趣。这是一款更小、成本更低的轻量级模型,但你可以用它来运行一系列子代理,然后将它们整合起来完成更大规模的任务。这种能力很好地平衡了成本与质量,从而让你在保证模型质量的同时,能够实现更多的功能。另外一个非常重要的方面是多模态能力。Gemini 的一个突出优势是其卓越的图像和视频理解能力,因此在屏幕理解等任务上表现非常出色。当你构想 AI Agent 的未来时,你希望有一个专家能如影随形,实时看到你所见的,并据此采取行动。因此,我认为这个发展方向也极具潜力。

Madhavi Sewak:在 Tulsee 的基础上补充一点,一个对我们非常有效的方法是:使用像2.5 Pro这样强大的大语言模型来制定计划,然后像 Tulsee 刚才提到的,由基于 2.5 Flash或 Pro 的较小规模的 AI Agent 来执行这些计划。这让上下文工程变得格外重要。过去大家普遍认为,要获得出色的 AI Agent 性能,就需要对模型进行微调。但正如我们在整个行业中所观察到的,无论是我们自己还是竞争对手,现在通过提示模型,并在上下文中传递正确的信息,无论是浏览器控件信息、API 调用,还是用户个人信息,只要你清晰地定义了任务目标,所有这些信息都能帮助你构建一个非常出色的 AI Agent。我们合作的许多公司以及我们内部团队都发现,这种方法的表现非常出色。

Tulsee Doshi:顺着这一点来说,很有意思的是,你提供的指令确实能带来天壤之别的结果。因此,我们自身以及与开发者的合作中都在不断学习:如何更好地向 Gemini 提供指令。这是一项我们和开发者都需要不断精进的技能,而且不同模型适用不同指令。所以,这也是我们希望与开发者社区继续共同探索和合作的领域。

(关于为 Gemini 编写提示的最佳实践)我们确实提供了一些官方文档,我稍后很乐意分享给你。而且我们认为这是一个需要持续投入的领域。分享实例也至关重要。因此,在 GitHub 等平台上,我们通过像 Gemini cookbook 这样的项目,努力提供丰富的示例,展示用 Gemini 能做什么、能构建什么,以及我们自己构建了哪些应用。这些都可以成为开发者们参考和借鉴的指南,我认为这非常有帮助。

02

普通用户的Gemini 多元玩法

假设我是一个不访问 API 的普通用户,你们观察到普通用户利用 Gemini 应用解决日常问题有哪些令人惊艳的场景?

Madhavi Sewak:关于 Gemini 应用的用例,在我回答这个问题之前,请允许我先补充一下刚才关于开发者的问题。目前有一种非常流行且对 Gemini 系列模型特别有效的方法论,叫做 RASCEF 框架,即:角色 (Role) 、行动 (Action) 、步骤 (Steps) 、上下文 (Context) 、示例 (Examples) 和格式 (Format) 。只要遵循这个框架,Gemini 的性能会得到极大提升。强烈建议大家试试。

至于应用场景,坦白说,提示工程本身的方法正在趋于统一,我认为大家应该把更多的注意力转移到上下文工程上。这个领域已经有一些非常出色的论文发表了,后续我可以分享给大家。说到底,这更像一门艺术,需要自己动手去尝试,才能发现它的有效之处。

说到 Gemini 应用的用例,我个人最喜欢的一个是用图片生成视频,做得越搞怪越好玩越好,然后发给我所有亲近的人。

Tulsee Doshi:那个真的很棒。你经常会在周日早上突然收到 Madhavi 的消息,她会说:“看我做了个这个。”

Madhavi Sewak:然后视频里的 Tulsee 就在跳着全套的宝莱坞舞蹈,中间还换了六套服装。 我们在角色一致性方面做得越来越好,所以视频里跳着宝莱坞舞的 Tulsee,看起来真的很像 Tulsee 本人。在我看来,这非常棒。而且这对创作者来说也极其有用,创作者们就喜欢这类应用场景。这充满了创造力。我认为,通过 Veo3 这类技术,我们正在进入一个新阶段,在 Gemini 应用里进行创意表达正变得前所未有的有趣,这太酷了。

Tulsee Doshi:除此之外,我个人一直非常喜欢的两个应用是“深度研究” 和 “Canvas”。我认为这两项功能很好地展示了2.5 Pro的强大能力。我一直在用 Canvas 创造各种有趣的实例,甚至包括和朋友们举办游戏之夜。我们现在形成了一个惯例:用 Canvas 来创建互动的《Jeopardy》问答游戏板,比如举办一场宝莱坞主题或哈利波特主题的知识问答之夜,生成一个互动游戏板,和朋友们一起玩。

这更能说明一点:Gemini 能够将海量的世界知识、强大的推理能力与像 Canvas 或视频生成这样的创意功能完美结合。因此,你现在可以做一些非常有趣的事情,你可以引入任何你拥有的关于世界的上下文信息,然后通过代码将其转化为丰富的互动体验。“深度研究”功能则能让你在此基础上更进一步,用于撰写研究报告和进行更深度的推理分析。

03

IMO 的胜利是模型通用推理能力的强信号

最近 Google 的模型在国际数学奥林匹克竞赛 (IMO) 中取得了胜利,从开发者的角度看,我们应该在多大程度上关注这类基准测试的成绩,或者说更应关注哪些方面?

Tulsee Doshi:在公司内部,我们经常讨论的一个话题就是:像 IMO 这样的基准测试成绩,如何转化为在现实世界中的实际性能?令我印象非常深刻的一点是,在 IMO 上的卓越表现,其实是模型通用推理能力的一个极强信号。而这种推理能力是可以跨领域迁移的。所以,你看到模型在数学上表现出色,但实际上,这意味着它在可验证推理 (verifiable reasoning) 、逻辑、问题解决和证明等多个方面都取得了进步。这些进步可以直接体现在代码性能和研究性能上。事实上我们发现,获得 IMO 金牌的模型在其他领域也同样表现优异。因此,推理能力的这种通用性和可迁移性,正是我们对这些胜利感到如此兴奋的部分原因。当然,还有一个事实是,我们能够推动这些技术前沿,也意味着我们可以成为数学研究领域更好的合作伙伴,这一点也让我们非常振奋。

Madhavi Sewak:接着数学研究的话题再补充一点,我们目前正在尝试攻克一个尚未解决的千禧年大奖难题,这完全是纯粹的推理能力的体现。另一方面,我们也与云部门的企业客户紧密合作。比如,像 AI 摘要或翻译这类应用场景,即便是 2.5 Flash这样轻量级的模型系列也能完成得非常出色,并且这类应用正变得越来越普及。我们会确保从这些企业客户那里获得大量反馈,以便持续地引导和优化模型在这些真实世界场景中的表现。所以我认为,我们的策略是二者的结合:既要攀登理论研究的高峰,也要立足于实际应用。

04

一年内模型将拥有巨大的上下文窗口

当模型被用于 AI Agent 产品时,如何评估、理解并控制其行为轨迹至关重要。Google 和 DeepMind 是否正在为开发者简化这方面的工作?未来几个月上下文窗口会达到 200 万 Token 吗?

Madhavi Sewak:是的。首先,简短的回答是肯定的。我们希望提供工具来简化这个过程吗?是的。我们希望将我们所有的评估体系都转向以 AI Agent 为核心吗?并且开始衡量由不同大小的模型进行规划和执行所构成的整个系统的真实世界性能吗?是的。同时我们也要研究,例如,哪些信息会污染上下文,哪些不会。举个例子,我们有时发现,浏览器控件会产生大量杂乱的日志,这会严重干扰 AI Agent 的判断。在这种情况下,你可以让一个子代理去处理。但反过来,当用户与你对话时,如果将这些对话上下文直接提供给 AI Agent,模型的表现就会非常好,因为这对模型来说是极有价值的信息。

而且,随着 Gemini 2.5 超长上下文窗口的出现,我们支持一百万Token。但我们已经具备了这个能力,并且未来某个时候也会支持两百万 Token。有了这个能力,上下文处理会变得越来越简单。所以让我们展望一下六个月甚至一年后的世界,届时我们将拥有巨大的上下文窗口,所有这些上下文工程都会变得越来越容易。但我认为,对开发者来说,最重要的事情就是,要为未来的模型而构建。因为如果你今天开始开发,三个月后产品进入市场时,你面对的将是完全不同的一套模型能力。如果你的架构不够灵活,你就已经落后了。想到软件工程已经发展到这个地地步,感觉有些不可思议。但总而言之,我们正在解决这个问题,并且会提供相应的工具。在 Google,我们承认我们应该在这个领域提供更好的解决方案,并且我们正在为此努力。

Tulsee Doshi:长上下文真正激动人心的一点在于,即便只看我们现有的能力,我们也能帮助模型学到更多,并让其在执行任务路径时变得更加动态。这是我们希望继续深入探索的领域。

另外,正如你刚才提到的,未来的应用场景本身也在日新月异——我所说的“未来”,甚至可能就是指一个月之后。因此,我们一直在做的一件事,就是不断调整我们的评估体系来跟上这种变化,去测试新的用户旅程和新的实现方法。这其中也包括打造一些原型产品,以便我们进行测试和学习。所以,大家看到的 Mariner、Astra 等项目,其实也是我们在尝试和测试不同类型的 AI Agent 工作流,从而了解用户真正在哪些方面感受到了价值,并通过这些学习反过来让模型变得更强。

(关于 200 万 Token 上下文窗口)我认为这个问题亟待解决,事实上,我们之前就已经发布了 200 万 Token 的上下文窗口。我们不仅有支持该功能的模型,也已经有客户在实际案例中利用它了。我认为,我们当前工作的重点是要权衡并理解这 200 万 Token 上下文窗口的价值,明确哪些用户需要它,以及如何以规模化的方式进行发布。这正是我们目前在做的工作。

Madhavi Sewak:这个领域也有相关的外部论文。其中一篇提到了一种叫做“反思式提示进化”的方法。这是一种遗传式的提示进化方法,本质上完全通过提示工程实现,并且在某些场景下,其性能甚至超越了强化学习。具体来说,这个 GPA 系统会利用推理、工具调用和工具输出的结果,以自然语言的方式反思哪些环节成功、哪些失败,从而诊断问题。然后,它会采用多个提示作为“父代”,通过结合它们的优点,衍生出新的“子代”提示。经过大约 25 轮迭代后,这些新一代提示的性能甚至会优于强化学习。所有这些都可以在上下文工程的范畴内完成,你完全不需要对模型进行任何微调。你现在就可以用2.5 Pro模型,通过这种方法获得非常出色的性能。因此,如果你想利用当今的模型来开发非常先进的 AI Agent 系统,我强烈推荐你尝试一下。

05

AI 时代的新必备技能

当 AI 越来越多地承担技术执行层面的工作时,在你们看来,什么才是新的必备技能?

Madhavi Sewak:我认为创造力将是未来的关键技能之一。过去,你可能有很多绝妙的想法,但苦于无法实现。而现在,当技术实现变得越来越容易时,我非常期待看到人类能迸发出怎样的创造力,来全面地改善我们的生活。

Tulsee Doshi:Madhavi 和我经常讨论一个词——“品味”。在当下的新环境中,这是一个非常有趣的词。尤其从产品经理的角度来看,过去产品经理的角色很大程度上是撰写产品需求文档 (PRD),用长篇大论的文字来描述你想要构建的产品。但现在,产品经理可以非常迅速地构建出产品原型。因此,对于“什么是好的 PRD”的定义也发生了变化。在某种程度上,现在评估指标就是新的 PRD,产品原型就是新的 PRD。能够清晰有效地传达你的愿景,成了一项新技能。所以,我认为这不仅关乎创造力,更关乎如何将创造力有效地传达出去。

所以,我认为这可以归结为三项核心技能。首先是创造力,其次是沟通能力。最后,就是战略能力。我们需要工程领域的领导者来帮助我们设计整体架构,并将所有部分整合起来;同时,他们还需要从战略高度判断何时以及如何有效地利用 AI。因此,这种综合知识将持续保持其重要性。我们希望 AI 系统能成为工程师的得力伙伴,这就需要我们的工程师们深入理解并精准把握何时应该有效利用 AI、何时需要对 AI 的结果进行有效验证,具备这种判断力和细致的洞察力将至关重要。

Madhavi Sewak:正如 Tulsee 所说,那些公司传统上雇佣的首席架构师等高级技术人员,确实需要更新他们对技术架构的理解,转向以大语言模型为中心。大语言模型正在改变整个技术栈,从模型服务、用户上下文的传递方式,到如何在技术栈上实现快速迭代,无一例外。过去那些庞大的单体系统,可能只有少数行业顶尖专家才能完全掌握,但很快,人人都能理解它们。因此,你如何能让自己的技术栈变得极其灵活,并能跟上新模型每三个月就更新一次的迭代速度?所以,我非常赞同 Tulsee 的观点:确保技术架构和公司战略能够跟上大语言模型本身及其惊人的发展速度,这一点至关重要。

06

产品与工程的协作之道

一位产品负责人和一位工程负责人是如何协作的?你们如何协调优先级,尤其是在推动前沿研究突破和满足当前产品需求之间?

Tulsee Doshi:首先,持续的沟通是我们当前运作模式的基础。但回到你关于如何确定优先级的问题,我认为一个良好的产品与工程合作关系的关键在于,你们必须真正地像一个伙伴团队一样去工作。如果你们的工作模式是“产品团队去制定一份路线图,然后拿回来给工程团队执行”,那几乎必然会导致双方的脱节。因为优秀的工程和研究负责人同样具备出色的产品嗅觉,而优秀的产品负责人也深谙技术。所以,双方必须真正理解彼此的限制条件,才能共同规划前进的方向。以 Gemini 为例,我们制定优先级时,通常会结合两个方面的信息。一方面是响应用户需求,我们会进行用户研究,了解横跨我们各项产品的用户需求,并分析开发者和核心客户的反馈,找出他们遇到的问题。通过这个过程,我们会明确当前在代码能力、工具使用等方面最大的短板,或是导致用户转向竞争对手的关键差距。这是第一部分。但另一方面,我们也要驱动创新。我们不能仅仅跟随用户的反馈,更要向前看,去思考“三年后的世界会是怎样?我们现在需要投资哪些关键领域?”这可能意味着投资长上下文技术、更好的音频理解能力,或是卓越的视频生成技术,这些我们认为能够真正推动技术前沿的领域。通常来说,如果我们做得正确,我们的最终优先级应该是一个由这两种思路构成的、平衡的投资组合。

07

DeepMind 的研究成果如何体现在产品应用上

DeepMind 在进行前沿 AI 研究,这种协作是如何进行的?DeepMind 的研究成果,是如何最终体现在全球数十亿人使用的产品和应用中的?

Tulsee Doshi:我们的定位是让 Google DeepMind,特别是 Gemini,成为驱动整个 Google 的“引擎室”。如果我们成功,Gemini 就能像一颗种子,在公司内部催生出各种令人惊叹的创新体验。这一点已经开始在我们发布的产品中显现。以搜索中的“AI 概览”为例,就每日使用它来获取有效信息和答案的用户数量而言,它即便不是全球范围内,也是规模最大的生成式 AI 应用之一。我们看到 Gemini 在不同的产品形态中发挥着作用,无论是在搜索场景里,还是在独立的 Gemini App 中,亦或是在 Google Photos 里用 AI 来查询照片内容。我们希望 Gemini 能成为这个引擎的核心,并在此基础上构建能够服务于所有产品的通用能力。因此,我们工作的核心就是,如何将从各个产品团队收集到的纷繁多样的用例需求,提炼成 Gemini 必须精通的核心基础能力,从而有能力去驱动如此多样化的用户体验。

Madhavi Sewak:我们与 Google DeepMind 的 CTO Koray 紧密合作,他最近也被任命为 Google 的首席 AI 架构师。他的核心任务就是推动 AI 技术在 Google 各产品线中的落地和普及,尤其是从那些拥有数十亿用户的旗舰产品开始。这也是我目前工作的重点。在过去几个月里,我参与的一个重要项目就是 AI mode。我们致力于将 Gemini 最精华的能力注入 AI mode,并快速交付给用户,以满足他们对信息的探索需求。这种探索体验能够让用户“深入兔子洞”,进行层层递进的挖掘式搜索。无论是通过常规的 AI mode,还是“深度研究”模式,它最终都能为你呈现一个关于某个主题的、非常全面有效的认知图景。

我给你举个例子。我最近在布置新家,需要买一大堆东西,但完全没有时间。最后,我干脆直接问 AI mode,让它帮我了解各种商品的特点,我把所有想问的问题都抛给了它,最后,我只需点击 AI mode在回答中提供的内联链接,就直接跳转过去完成了购买。这一次,我真的完全没有上任何购物网站去做信息搜集。作为 AI mode的用户,我感到非常满意,因为它让我能够为这些日常家居用品的采购,做出非常明智的决策。

Tulsee Doshi:这其实也呼应了 Google 搜索的使命——让全世界的信息都触手可及。Gemini 的角色,正是让这一使命变得空前强大的新引擎。我们并不是在设定一个新目标,而是在延续我们一直以来的追求,那就是以最便捷、最有效、信息最丰富的方式,让用户获取他们需要的信息。而 Gemini,正是在各个方面让这一过程变得更加高效。

08

让所有产品为用户提供端到端的支持

未来,我们是否会看到 Google 的搜索产品演化出真正的 AI Agent 能力,从而完全自主地执行端到端任务?未来会是一个具备 AI Agent 能力的 Chrome 浏览器,还是会更像 Gemini 这样的独立应用?

Tulsee Doshi:我们的愿景是,让所有产品最终都能为用户提供端到端的支持,这无疑是我们前进的方向。至于关键在于要明确哪些端到端任务最值得我们去支持,以及如何最高效地实现它们。这需要我们和用户共同进行实验,深入到 Chrome、搜索和 App 等不同产品的实际场景中,与用户合作来打造新体验、收集反馈,并在此基础上持续迭代优化。我们需要厘清,例如,用户在何种场景下获取信息最便捷?哪些任务他们乐于委托给 AI,哪些又倾向于亲力亲为?在哪些环节他们需要人工验证,哪些又可以完全信任地交由 AI 处理?我们对这些问题有一些初步假设,正在测试验证,并将在未来几个月持续迭代探索。

Madhavi Sewak:无论在 AI mode还是其他系统中,我们都与出版商生态系统紧密合作,他们是我们多年的合作伙伴。我们希望携手他们共同发展,因为他们才是服务的最终提供方、购物网站的运营者以及数据的来源方。我们致力于确保用户能通过我们找到最合适的网站,获取所需信息,最终促进整个生态系统以这种方式良性运转。

09

保持模型能力的通用性,同时打造整合的编程产品

编程是你们的战略重点,你们是否考虑过推出一款专门为编程优化的独立模型,或者Google 是否会推出一个围绕编程的整合性产品?

Madhavi Sewak:在模型层面,我们的理念是采取最合理的策略。只要一个通用模型的能力可以很好地泛化和迁移,并且在编程任务上依然表现卓越,我们就会持续投入。如果在某个阶段,研究表明专用编程模型的性能远超通用模型,我们必将考虑推出专门的编程模型。但到目前为止,我们在 DeepMind 的理念一直行之有效,那就是保持能力的通用性。模型的能力远未饱和,其通用能力完全可以有效迁移。所以,目前我们依然坚持这一理念。

Tulsee Doshi:我认为这也能衔接上我们之前关于 IMO 模型和数学推理的讨论。我们还有另一个假设:当模型编程能力增强时,其推理能力也能迁移到其他领域;反之亦然,其他领域的推理和世界理解能力,同样能迁移到编程上。因此,这两者实际上相辅相成,有望共同打造出更优质的端到端体验。这至少是我们目前探索的方向。当然,正如 Madhavi 所言,我们在这方面的研究从未间断,一旦有新迹象指向其他可能性,我们也会重新评估。不过就目前而言,我们对2.5 Pro的编程能力感到非常兴奋,目标是继续将这项能力推向新的高度。

Madhavi Sewak:Hassan,关于您问题的第二部分,Google 内部也清楚地认识到,目前我们提供的编程类产品还比较零散,正在努力打造一个更整合、更出色的产品。与此同时,Gemini CLI 已经非常成功。它在代码理解、文件操作、命令执行和动态排错方面表现优异,深受用户喜爱。我们收到了大量积极反馈,它与2.5 Pro及整个 2.5 系列模型的结合效果也非常好。当然,我们最近也迎来了 Codium 团队的加入。坦白说,这个团队不仅产品出色,其人才也让我非常惊喜。我和 Tulsee 都与他们紧密合作,并坚信他们能打造出一套极其强大的工具。我们正在规划如何将这些整合并推向市场。总而言之,我对 Google 目前在编程领域,无论从模型还是工具层面取得的进展,都感到非常满意。

10

DeepMind 在全链路创新,从预训练、后训练到推理阶段

DeepMind 最近在进行哪些有趣的研究?有哪些是您觉得特别激动人心、未来可能应用于产品,并且现在可以公开分享的?

Tulsee Doshi:我想说,在 DeepMind 工作最棒的一点,就是这里产出的前沿研究。我们有大量的奠基性工作正在进行,涵盖了从架构到各个环节。非常酷的一点是,我们能在实验室内看到从预训练、后训练到推理阶段的全链路创新。我们团队正在积极测试预训练阶段的 Scaling Law 和强化学习领域的 Scaling Law,并在这两方面都取得了研究创新。IMO 模型就是绝佳的例子,它展示了我们如何扩展强化学习的应用,以及如何在推理阶段突破能力的界限。强化学习是我们持续投入和创新的领域,因为我们坚信其巨大价值。同时,我们也在投资架构改进,例如多模态领域,具体研究如何将不同模态在一个模型中高效结合,同时保证模型处理每种单一模态时依然表现出色。另一个重点是效率。作为 Google DeepMind 的一员,我为我们在研究上对效率的投入感到非常自豪。因为我们的最终目标,不只是提供一个性能强大但成本高昂的模型,而是提供一系列在不同规模和推理成本下都表现优异的模型选项。这一点至关重要,我们在这方面的许多研究都非常有前景。我想在未来几个月,大家会陆续看到这些成果落地。

Madhavi Sewak:补充一下,放眼整个DeepMind 而非仅限于 Gemini,我们在科学、数学乃至 AI Agent 领域的工作都取得了丰硕成果。许多研究都源自这些不同方向,例如我们不久前才获得了诺贝尔化学奖。因此,我个人非常看好 DeepMind 各个研究方向的前景。我们现在的任务,就是思考如何将这些研究成果,通过 Gemini 系列模型以及 Google 整个产品矩阵,以对用户最高效的方式融入产品。我对我们正在进行的研究充满信心。

11

关注模型“软”实力,以及更高效的推理范式

在 AI 公开研究领域,最近几个月有哪些普通人可能不太关注,但实际上非常重要的进展?

Madhavi Sewak:我可以分享两个。第一个来自 Anthropic,一个我个人觉得非常有意思的研究方向,叫做 “persona vectors” (人格向量)。它旨在通过编辑模型内部的这些人格向量,来监控和控制语言模型的性格特征。

Tulsee Doshi:好的。这项研究非常新,我认为它反映了一个趋势:当前各大实验室和整个行业,都在持续探讨模型行为 (model behavior) 的问题。大家意识到,我们不能只关注编程这类“硬”实力,也要关注模型沟通方式等更“软”的实力,比如语气、个性和幽默感。Anthropic 研究的“persona vectors”,正是试图更好地理解和捕捉模型学习这类行为的能力。我们自己也在进行相关研究,比如如何为模型定义一种“个性”,并围绕该目标进行构建和训练。因为归根结底,用户的体验和主观感受,与模型的硬核性能同等重要。

Madhavi Sewak:第二个让我很兴奋的研究叫做 “Hierarchical Reasoning Models” (分层推理模型)。目前,全球几大 AI 实验室的大部分推理模型,基本上都采用“思维链” (chain-of-thought) 的方式。而这个分层推理模型是一个仅有 2700 万参数的小模型。它内含两个相互依赖的模块:一个高层模块负责慢速、抽象的规划;一个底层模块处理快速、具体的计算。仅通过一次前向传播和顺序推理,这个小模型就在某些任务上超越了许多参数量远大于它的模型。我认为这个方法非常有趣。我相信在 Gemini 团队内部,肯定已有团队在探索类似的方法论。但当我在外部读到这项研究时,确实很感兴趣,并希望能探索其应用。

12

AI 领域尚未被充分认识的问题

目前 AI 领域有哪些尚未被充分认识到的问题?即那些大家可能刚开始关注,但还未成为主流焦点,而你们认为“如果有人能解决会非常有价值”的问题。

Tulsee Doshi:我觉得有好几个领域我们正投入越来越多的关注,它们虽然尚属小众,但正处于发展的早期阶段。我想先回到模型行为这个概念,它涉及到个性化、适应性和可控性。“可控性”在行业内已讨论多时,但究竟什么样的模型行为才算“好”,这其实是一个非常复杂的问题,且答案可能因人而异。比如 Hassan 您期望的交互方式,可能就与我所想的不同。因此,我们该如何为这些模型和 AI Agent 定义恰当的适应性与个性化水平?如何在一个既能为个体提供高效个性化体验,又能保持观点平衡的系统之间,找到完美的平衡点?这是一个我们刚刚开始探索且充满趣味的领域。

另一个我想提的是评估。实际上,我们今天刚宣布了一个名为 Gamer Arena 的项目。这是我们与 Kaggle 合作推出的一个趣味性基准测试,在这个平台上,AI 模型会进行象棋之类的游戏对战,以此来评估它们的能力。这背后其实是在验证一个观点:现有的 AI 基准测试很快就会被模型的能力“刷爆”。它们对于衡量特定任务依然有效,但对于那些更综合、更主观的能力,比如模型行为,我们该如何真正地衡量?当模型进步的速度甚至可能超过基准测试本身的发展速度时,我们又该如何评估它们?因此,持续革新 AI 评估方法,是我们自身乃至整个行业都必须大力投入的领域。

Madhavi Sewak:我再补充一个特别感兴趣的领域:上下文内强化学习(in-context reinforcement learning)。传统的强化学习方法需更新模型权重,这种方式成本高昂,且需要微调模型,属于后训练操作。而上下文内学习发生在推理阶段,不更新模型权重。如果运用得当,它对于 AI Agent 的自主行动和决策场景将非常有帮助。设想一下,当您在 AI mode或 Gemini 应用里预订航班,模型能根据对话实时推断出您的偏好,比如您带着两个孩子,不想选择需要长途跋涉才能寄存行李的酒店,因为当前您不追求冒险。这种能力不仅仅是拥有个性化的上下文那么简单,因为同一个人在不同场景下需求不同,

我真正希望的是,未来能为每一个 AI Agent,在用户与 Google 所有产品交互的每一个瞬间,都能部署这种上下文内强化学习。然后,系统需要判断哪些信息是需要跨对话保留的个性化上下文,哪些又仅属于当前对话的临时信息。我们人类时刻都在这样做,就像在此刻的对话里,Hassan,我的大脑会保留很多关于您的临时信息,您也是一样。但对话结束后,我们并不会真的去“更新权重”,让对方成为彼此生活中的重要角色。

13

AI Agent 的核心瓶颈:上下文与记忆

对于 AI Agent 产品而言,维持上下文状态在当下是一个非常棘手的难题,如果无法维持上下文,就根本无法获得正确的结果。Gemini 是否正在解决这个问题?目前在流程级别记忆方面最大的障碍是什么?

Madhavi Sewak:是的,这在整个行业都是一个非常活跃的研究领域,我认为还没有任何一个研究机构真正解决了这个问题,而我们也非常希望能率先攻克它。一旦问题解决,依赖 AI Agent 的公司将取得惊人的成就,因为我已经看到这项技术对于产品,尤其是企业用例,具有不可估量的价值。

(关于流程级别记忆的障碍)我认为这个问题亟待解决,在我看来,近期许多论文在实现上下文工程时,采用的一种方法是设立一个独立的记忆单元 AI Agent。这种方法的效果,似乎远胜于将大量记忆信息在上下文中直接传递。原因在于,整个行业的模型在面对一次性呈现的所有信息时,仍无法分清主次,弄清楚应该保留什么、丢弃什么。目前的做法是通过高带宽内存传递信息,并借助检索增强生成 (RAG) 等技术来辅助。举个例子,假如你是 Goldman Sachs,拥有大量内部私有文档并希望模型能参考它们,你肯定不希望模型自行创造观点。无论你是律师事务所、保险公司,还是在处理财务报告,在这些场景下,你都非常希望模型能够精确引用手头已有的数据。

我认为,在研究层面,我们正努力让模型理解如何从不同的上下文中甄别和取舍所需信息。具体来说,模型应该从当前对话中提取什么,从 RAG 中获取什么,从记忆单元中调取什么,然后又该如何将这些信息整合起来?除此之外,还要考虑加入个性化的上下文,以及利用上下文学习。因此,当前的关键研究挑战在于,如何处理如今所有这些不同来源的数据片段。试想一下,还有大量的工具调用,你有许多不同的工具可用。在某种设想中,很多事物都遵循一种 MCP 格式,你可以通过这种格式与它们连接和交互。但现在的问题是,假设针对一个查询,你获得了所有这些信息,该如何从中筛选出真正需要的部分,来为用户构建最有效的答案?这正是一个活跃的研究领域。

Tulsee Doshi:我完全同意。正如 Madhavi 所说,这才是真正的突破口。所以问题的一部分在于如何创建正确的上下文和记忆,无论我们怎么称呼它。但我认为更重要的部分在于,如何训练模型,让它知道在什么时候该使用什么信息。这关乎如何让模型变得更智能。我们正在研究的一个有趣课题,就是如何避免模型过度个性化或过度使用上下文。举一个负面例子:我们今天进行了这次对话,明天 Hassan 你在进行另一场对话时,今天对话的上下文却主导了新的对话。我们希望模型能够精准地权衡判断,从而有效利用上下文的特定方面,决定何时调用某些工具,以及何时依赖其自身领域知识。

这让我想起大学时的开卷期末考试。考察的关键能力并非是你记住了所有知识,而是你知道所需信息在你笔记的哪个位置,并且懂得如何从那个特定地方获取信息,再以正确的方式将其组合起来解决问题。我认为,我们很大程度上就是要赋予模型这样的能力。

Madhavi Sewak:没错,尤其重要的是要学会忽略什么。比如,如果 Tulsee 正在回答问题,而我冲着她大喊:“2+2=4,2+2=4”,她不应该因此改变自己的答案。她必须明白这只是与问题无关的垃圾信息。我认为目前模型在这方面还做得不够好,但这正是 Gemini 团队正在积极研究的领域。

14

Deep Think 的力量在于探索多样化的问题空间,综合多种路径

我们就聊聊 Gemini 2.5 Deep Think 系统吧。与单一模型方法相比,多个 AI Agent 并行工作的方式,从根本上改变了什么,或者说带来了哪些新的可能性?

Madhavi Sewak:Deep Think 一个非常有趣的特点是它生成的答案具有多样性,以及它探索问题空间的广度。举个例子,我们后来与一位数学家合作,他在博士期间解决了一个数学猜想,但他发现 Deep Think 模型用四到五种不同的新方法也解决了同一个问题。我认为这是 Deep Think 模型一个特别有意思的地方。同样,在编程领域,我们用它来解决一些编程竞赛平台 (Codeforces) 上的难题。其中一个问题是“抓鼹鼠”:在一棵树状结构中,有一只鼹鼠藏在某个节点里,你如何用最少的遍历次数和最少的步数找到它?这同样是 Deep Think 模型极其擅长的,因为它能够探索广阔且多样化的问题空间。总的来说,我认为 Deep Think 模型在数学、编程方面能力卓越,甚至还具备超凡的视觉审美和理解力,因此能创造出非常精美的网站和应用程序,这些都是它的与众不同之处。我个人还会用它来做路径规划,因为它在探索问题空间方面表现出色,之后你可以用那些更小、推理成本更低的执行模型来完成具体任务。对我而言,这就是 Deep Think 最吸引人的地方。

Tulsee Doshi:我想特别强调 Madhavi 刚才提到的最后一点,那就是探索多种视角的能力。回到你关于“并行思考的真正含义是什么”的问题,我认为对这个词的字面理解本身就极具力量。这意味着什么呢?想象一下,你可以同时探索多种不同的方法和路径,审视它们,然后在此基础上综合出新的一组潜在路径,最后再从中提炼出你认为最合理的最终方向。从某种程度上说,这正是我们人类解决问题的方式。就像 Madhavi 买家具一样,她实际上在探索多种不同的布置方案,然后决定:“好了,我就选定这个方案了,现在要在这个方向上进行更深层次的规划。” 我认为,能够将这种丰富的思维模式引入到推理任务中,将使我们能够解决远比以往更复杂的问题。而这,也正是我们在 Deep Think 系统上所看到的成果。

| 文章来源:数字开物

【AI技术与应用交流群|仅限受邀加入】

AI算力领域TOP级从业者专属圈层

√ 与头部算力企业深度对话

√ 与AI上下游企业深度对话

√ 获取一手全球AI与算力产业信息

√ 获取AI热点及前沿产业独家信息

√ 随时了解全球AI领域高管最新观点及实录全文

√ 有机会参与AI主题产业交流活动

扫码验证身份(需备注姓名/公司/职务)

不止有 DeepSeek,更有 AI产业的未来!

• END

【专栏】精品再读