打开网易新闻 查看精彩图片

姚顺雨终于袒露心扉谈模型评测问题了。

智能纪元AGI 6月5日消息,今天上午举行的2026腾讯云AI产业应用大会上,腾讯集团高级执行副总裁,云与智慧产业事业群CEO汤道生,与OpenAI前研究员、腾讯首席 AI 科学家姚顺雨进行对谈。

这是姚顺雨入职腾讯以来第一场线下面对面登台、大屏直播公开对谈,也是正式面向产业、政企、开发者的首秀。

同时,这还是姚顺雨加入腾讯后的第三次公开亮相。前两次分别是在AGI-Next前沿峰会上接受视频连线、腾讯青云奖学金活动上。

姚顺雨毕业于著名的“清华姚班”,之后在普林斯顿大学进修计算机科学博士。2024年8月,姚顺雨加入了OpenAI。

在OpenAI期间,他担任研究科学家,主要做GPT和Deep Research 项目开发。

2025年底,姚顺雨官宣入职腾讯,任首席 AI 科学家,直接对接刘炽平、卢山,但此前仅线上零星露面,偏后台研发角色。

姚顺雨直言,国内AI产业有个不好的倾向,即喜欢“刷榜”,但实用性价值大于刷榜价值,实事求是基于产品和应用去构造AI更重要。

他提出,行业发展要立足产品与真实应用,产品落地出口是基础,实用价值优先级高于榜单跑分,腾讯正通过与各类产品深度绑定落地该思路。

他认为,解决“Token焦虑”的关键在于提升模型性能,高性能模型能更高效完成任务,减少无效尝试,从而降低总体成本。

汤道生也坦言,外界提到腾讯慢了,在AI上面腾讯没有及时地去抓住一些机会。他问姚顺雨:你觉得我们真的慢了吗?

姚顺雨回答,可以进行两个判断:

一是,AI是个短期还是长期游戏?他的判断是长期。AI下半场才刚开始,不认为ChatGPT和Claude是唯一的机会,总会有新的机会诞生,就像70年代PC刚诞生时那样。

二是,单一还是多元游戏?他的判断是多元化。AI发展以来,多模态、具身智能等新模式和产品,一直在发生。过去的大模型探索,大家走了很多弯路,这是正常的。重要的是,能不能诚实面对自己,能不能及时纠正,保持耐心。

姚顺雨强调,大模型时代产品与模型必须深度协同,以真实场景数据驱动迭代,并依托腾讯的“场景-工程-模型”核心三角,推动AI从技术验证,走向实质性产业落地。

打开网易新闻 查看精彩图片

以下是汤道生、姚顺雨对话实录整理(有部分删减和修正):

汤道生:非常欢迎顺雨,你要跟大家说个hello吗?

姚顺雨:当然好了,我平时都是在海淀区,现在很少来朝阳区,来到朝阳区很高兴。

汤道生:我看计时器已经开始了,所以我们就直奔主题,直接交流。

今天我们两个对话可能是一个比较新的形态,如果有什么出乎意料的,我想也是给大家一个惊喜。姚顺雨你加入腾讯之前,我记得当时我还问过你一些问题,为什么会选择来到腾讯?而且你认为AI的下半场最重要的是什么?

姚顺雨:我觉得我想首先解释一下什么叫做下半场,因为我最近感觉这个词有点被滥用了

对,这个概念其实是我去年的一个博客里面提出来的,什么意思?其实我觉得在可能去年之前 AI已经发展了几十年,但是更加重要的是怎么去解决问题,去寻找好的方法。

但是最近我觉得很明显,方法论已经变得非常成熟,寻找问题变得更加困难。

我们举个例子。比如,我们做下围棋,对吧?我们会发明像AlphaGo这样的一个方法,但这个方法它可能只用来适合下围棋或者下各种棋类。

你会为了翻译做一个特别的模型,但是它可能只能用来做翻译,不能做其他事情。

但是有了预训练和后训练之后,我们现在有了一个万能的锤子,它可以去砸任何钉子,它是一个通用的方法论,可以去解决各种各样的问题。

那么,反而更困难的是,怎么去寻找好的问题去解决,所以,其实我觉得加入腾讯很重要的一点就是,这里有很多好的问题,有很多产品,然后我觉得这一点会在接下来变得越来越重要。

其实一方面,好的产品能够解决。

第一个问题就是说,我们做预训练和后训练之后,我们到底要把它应用在什么样的地方产生价值。

第二就是说,环境是非常重要的,如果没有好的环境,Agent就没有办法去做各种各样的事情。很多事情你做不到。

但是我觉得,可能最重要的是上下文(Context),因为模型越来越擅长把一个非常复杂的输入变成一个输出,很多时候你的竞争壁垒就在于,你有没有最原始的输入,你知不知道这个人他到底在干什么,你知不知道企业的各种各样的信息?

这一点的话,我觉得腾讯有非常强的优势,但我觉得,这个只是第二大的原因。

我觉得加入腾讯其实最重要的原因是文化。

我还记得我第一次跟你聊天的时候,包括和很多其他总办的老板们聊天的时候,我第一印象就是,大家都非常的诚实,就是哪里做的好,哪里做的不好,都非常直白,就是不会去掩盖,然后就说这里做好我这里不知道我知道这里应该怎么做,我不知道这里应该怎么做,我觉得这种坦诚是我的第一印象。

然后我觉得,第二个就是说我觉得腾讯总体是一个基于信任(trust),而不是基于矩阵(matrix)去运转的公司,我觉得这一点对于做AI是非常重要的。

我觉得我们的文化其实有非常ego、非常solid的这一面,然后我觉得这些文化都是可能对于长期来做一个AI的组织是非常重要的,包括我们对长期主义的这种坚持。

所以,AI下半场最重要的是什么?

我个人的目标,我觉得我们应该在中国建立一个长期的、基于AGI的组织。

今天的AI,其实主要有三个部分:

首先是基础模型(foundation)的部分,我们怎么样去把预训练和后训练这种最基础的东西做得非常solid。

第二部分是产品。我们怎么去把这样的技术,真的为人和社会产生价值。

第三就是前沿(frontier),我们怎么去探索新的研究的范式,探索新的机会。我们要构建一个非常均衡的这样三角形一样的组织。

我觉得,对于做基础模型来说,最主要是三点:

第一需要充足的资源。

第二就是需要正确做事的方式,这其实跟我刚刚说的文化也是吻合的。对于产品来说,我觉得有好的产品分子,有时候做产品“精英”是至关重要的。

第三,我觉得在中国,我们今天可能所做的探索还不够多,所以我也希望能把这种前沿创新的精神能更多的注入到我们组织中。

汤道生:

你提到的跟总办聊的过程中,感受到的真诚或者务实,其实也是经常我跟客户的交流得到的反馈。

我觉得我们做事的方式、做产品的理念其实也是比较实事求是,毕竟,AI赛道还是一个长跑,我觉得有时候认知其实也很重要。哪些我们做的好的、哪些做的不好的,都得认。

但关键,这是一个多维度的竞赛,我们看到现在模型有很多进步,我们说产品,其实也是有越来越多的形态,不同的场景,有不同的需求,未来还是非常可期的。

您刚提到,模型跟产品可以说提供了一个环境,里面有要给模型提供content,所以我想问你一个问题,尤其我们平时开会提的有一个词比较多的是CoDesign(协同设计),怎么把产品、模型能够比较紧密的结合起来。

尤其今天腾讯有这么多丰富的产品,像元宝这样的一个聊天机器人,包括AI搜索;企业里面也有部署一些智能客服、智能营销,另外最近非常火的类龙虾的产品,其实对于模型的能力依赖很深,你怎么去思考CoDesign方式。

姚顺雨:我觉得有三点:

首先,Codesign的前提,就是说模型本身性能要强,做得的记住模型工作要做好。

预训练最大的特点就是,它是一个可泛化、学习的过程,它的进步是可以带给各种各样下游的任务,都以持续价值提升。

后续产品的话,其实我觉得最重要的一点是要设立好正确的Evo(进化)。

我觉得中国可能大家有个不好的倾向,就是比较喜欢刷榜,但是,如何实事求是的基于产品,基于真正的应用去构造更加真实的evo,首先你要有好的产品出口、第二要意识到,可能实用性的价值是大于刷榜的价值。

其实这一点的话,我们做大量的工作,就是跟各种各样的产品进行了深度的Co-design。

第三,我觉得,其实很关键的一点就是要产生相互的信任。

这一点其实我们也做了大量工作,去取得互信,怎么把产品数据用好、怎么把这种回流和进化做好,这有很多细节我就不赘述。

但我觉得,大模型时代和过去的(视觉)AI最本质的区别就是泛化性,就是在大模型之前,比如说你做一个翻译的产品,你只要把翻译的数据做特别好就行;你做一个围棋的程序,你只要把围棋的数据准备特别好就行了。

但是今天,即使你想就只做一个Collaborative Design,你发现其实需要的也不仅仅是客户核心数据,而且你的聊天能力需要非常强、搜索能力强,指令遵循能力非常强的推理能力。

它其实是一个非常复合、对这个事情有test。

所以,这个事情的推论就是,其实有很多产品的体系化方向,会有一个比较大的优势。

比如,我们元宝的co-design,可以使我们模型产生很强的聊天和搜索能力,但这样能力可能又可以被迁移到其他产品。所以,这些产品它能够提供不同的数据,但这些数据之间又可以相互泛化,它形成一个像网络一样的体系,我觉得这一点的价值会越来越重要。

汤道生:我其实觉得,外部的刷榜其实也是属于evo的一种,所以我们内部、跟外部刷这种榜有什么区别?

姚顺雨:

我觉得首先,这些评测基准(Benchmark)还是有它的价值,不是说它完全没有价值。

只是说,现在这些榜非常容易饱和(saturate)。

我觉得,基于真实世界的数据有几个帮助:

首先,你能发现模型的很多底线问题。我觉得我们想要发一个Preview模型,最重要的目的之一就是,我们希望能获得真实世界的反馈,来修复各种各样的就是榜单中没法发现的这些底线问题。

这一点,我们会在正式版上面有一个非常大的改进。

第二点就是,你对真实的提示词分布(prompt distribution)有一个更深的了解。我举个例子,比如,评测集上面的这些题目可能它都是非常精确的,它有非常长的这种描述,然后它可能一般来说是个单轮问题。

但我们知道,在现实场景中,可能大家问的问题都是比较模糊的,可能就一两句话,让他会不停的追问,这样就可以启发腾讯怎么去更好的去做这样训练。

第三就是,我觉得甚至我们可以在这些产品上面获得一些灵感,去推进现在可能还没有的榜单,或者未发掘领域的推进。比如,我们最近做了很多协同工作,跟元宝派给我们的启发很有帮助。所以,我觉得这个产品和模型的互相成就,是越来越重要的一个AI的话题。

我记得我们在早期做元宝的时候还碰到都能遵循的问题,好像在使用产品大家,这种迭代方式跟benchmark也好像有些差异,真正在产品里面大家使用所需要的能力,确实跟榜单结果还蛮大的差异。

姚顺雨:你问了我这么多问题,我也问一点给你。

汤道生:好,欢迎。

姚顺雨:其实我记得我第一次跟你聊的时候,你跟我讲了很多你过去的经历对吧?就是从QQ空间QQ秀的时代一直到我小学时候最喜欢的产品是吧?

汤道生:你说的意思是老登嘛。

姚顺雨:从QQ到音乐,到现在的元宝,其实跟你聊天很有意思,因为你做过各种各样的产品,toC有、toB也有,远古时代的也有,最近的AI时代的产品也有。

我其实比较好奇,就是说,你觉得你做产品的第一性原理是什么?你觉得哪些经验或者价值是不变的,哪些东西变了?

汤道生:

我觉得,其实最终做产品还是奔着到底用户有什么需求,我怎么去解决他的痛点、怎么去给用户或者客户创造价值?

这在不同的时代、甚至不同的行业都有用处,你作为一个产品还是需要能够给用户带来价值,他才会买单才会使用。

所以,我倒觉得,从PC互联网时代、移动互联网时代,做各种各样的产品内容和产品,到产业互联网做云,其实我们也要花好多的时间精力去听客户的声音,尝试去帮助他们去解决他的问题。

底层的逻辑其实没有这么大的变化,但确实,我觉得在PC互联网、移动互联网时代做产品,跟今天在AI时代做产品还是有蛮多不一样的地方。

首先,我觉得从范式的角度来看,在这一轮AI时代以前,我们做产品很多时候想的是通过功能来满足用户的需求。你作为一个产品提供方、服务提供方,你想清楚我提供怎么样的能力,让用户可能通过界面通过某些菜单去选。

这好像是一些预制菜,你只能在里面去点一样。

但在AI时代做产品,它的那种开放式服务形态,就会带来很不一样的要求与挑战,用简单的交互方式可能是自然语言、可能是语音即可。

其实作为产品方,你也不知道用户会问什么,所以要充分利用模型能力去理解用户的需求。

然后通过比如今天大模型的这种逻辑推理,能调用工具能力,产品模型提供各种各样可用的工具,来应对这种开放式需求。

做 AI 产品,我发现最大的变化,是我们整个流程可能都要重新设计,尤其今年大部分的代码都由 AI 生成,我们的工程师可能花会花更多的时间去做架构的设计,把写代码的工作可能都交给 AI 了,然后定期去指导一下、修正一下。

然后,测试也要左移、更前置、想清楚,针对我们的各种案例、环境,有我们对开放式答案的要求,怎么对齐用户,适配我们用户所需要的那种风格。

我感觉,今天 AI 时代做产品其实要求的能力更全面,更难了。

汤道生:

你是ReAct架构的提出者,博士研究也是围绕着语言智能体展开的,你几年前的一些观点到今天兑现了吗?比如有哪些?

姚顺雨:那天我挺感慨的,我重新读了自己的博士论文,感觉又回到一个很远古时代,我的博士论文的title叫做《language Agent from next token prediction to digital automation》,是2019年。

汤道生:7年前。

姚顺雨:那个时候就是GPT-2,那个时候它只能做下一个词预测,而且它产生一段话不太连续,所以当时人们很难想象到,它有一天成为一个改变世界的力量。

当时,我觉得可能大家做的研究,稍微有想象力做一些研究。

当时我的想象力比较狂野,我觉得GPT是一个非常优美的东西,吐下一个Token是一个非常极简且非常通用的事情,我觉得它有一天潜力不仅仅是在于吐出下一个Token,而在于把这个世界上所有事情全部自动化,我当初想得还不够远,我原本想的只是数字自动化,但现在看来,它也有可能同时覆盖数字与实体自动化。

我觉得其实我博士期间主要做两部分,第一部分就是如何建立一个Agent方法论,如何把一个Next Token prediction的机器变成一个Agent,变成一个自动化的机器,最重要的工作可能是你说的反应(react)。

我记得2022年7月份的时候某一天晚上,当我第一次把PalM two的API和当时手写的一个 API连在一起,它第一次可以基于这个网页回答问题,并且多轮交互的时候,我当时感觉就像微弱电灯灯突然亮的感觉一样。

我感觉据我所知,人类第一次把大模型LLM和互联网连在一起并且做多轮交互,我当时的感觉是,这个感觉可能在5年或者10年会改变这个事情,但是可能比我想象中还要更快。

我记得当时我们第一次提出SWE-bench的时候,我觉得OK,如果这个事情能做到,那很显然它会带来巨大价值,当时可能是几百亿、上千亿,但现在可能是数万亿,数是万亿,可能我想的还是太小了。

另一部分我做的工作就是怎么定义数字自动化(Digital automation)的任务,比如说WebShop是第一个基于互联网的Web Agent task,包括InterCode和SWE-bench是最早的Coding Agent这样的任务。现在看起来Agent技术最重要两个部分确实是外部Agent和Coding Agent。

那天在群里和大家聊天时,我翻到了自己博士论文的结尾部分——那是2024年写下的未来研究方向:第一条是训练智能体模型,第二条是系统迁移与鲁棒部署,第三条是科学发现,第四条是如何更好地帮助人类。

看着这些文字,我不禁感慨万千:现在的我何其幸运,正在实践当年列出的每一个未来方向。

毫无疑问,今天Agent或者Coding Agent有点像预训练一样,是不得不做的事情,是最基础能力。

我个人觉得,Coding Agent非常本质有很多原因。还有一个重要原因就是说它是一个优点像图灵完备的事情,当你有能力去控制自己的文件系统,当你拥有一个容器时,实际上你拥有的是一个完整的系统,今天我觉得,Agent毫无疑问是每一家模型所发力的重点,我觉得我们做的方法可能会有几个区别:

第一,即使今天Coding已经是最重要的事情,但是我们还是会强调体系的全面化,我始终认为要把Coding做好,其实需要远远不止Coding的数据,也需要聊天、推理,各种各样不同的东西,因为大模型最重要的点是泛化性。

第二,很显然产品作用越来越重要,如何利用好线上回流,我觉得是一个每个模型厂商都在应对和思考的问题。这里刚刚积累很多Co-Design经验变得非常重要。

第三,我觉得还需要更多想象力,无论是技术演进,还是产品演进,甚至下一个范式演进,我们需要做探索性甚至不确定性的工作。

汤道生:如何优化 Token 消耗,提升使用性价比?

姚顺雨:我觉得在中国讨论性价比更多讨论模型架构,但其实它是很复杂的体系,我觉得最重要的是首先是你的性能。

很多人跟我说,他最后发现用OPUS这样的模型比用更差的模型更省钱,因为更快的把这个事情做对了,也省得人的精力,最重要的事情是performance,如果你的performance好,性价比是最关键的事情。

尤其,我觉得今年可能很多简单任务的robustness(鲁棒性)会变得更加重要,一次把相对简单任务做对,这可能是性价比更关键的部分,不仅是模型架构。

第二点是成本,中国是领先于世界的,就是我们做大量工作优化我们的成本,成本可能最重要的事情是怎么用一个更小的模型把更高的价值任务做好,在这基础上架构创新,包括长文管理,脚手架有很多需要做的事情。

如果我们做一个相对较小的模型,但是它比肩大模型性能,而且在大部分任务上做很强的robustness,这可能在很多长程的上面提升一两个点的提升,可能在今天的中国更有价值。

汤道生:我也想再问,一个可能大家比较多讨论的一个问。

其实很多自媒体都会提到腾讯AI慢了,说在AI上面我们没有及时抓住一些机会,你觉得我们真的慢了吗?到底下半场是什么?你能再多说一下吗?

姚顺雨:感觉应该是我问你的问题。

汤道生:哈哈。

姚顺雨:我觉得首先AI其实今天有两个重要判断,第一个就是说我们认为AI是一个短期的游戏还是长期游戏?在硅谷大家蔓延很多情绪,哎呀,2年后所有人都要失业,AI要取代所有人的工作,我们要赶快赚2年钱退休。但很显然我们的判断AI是一个长期游戏,其实我觉得AI刚开始,下半场才刚刚开始,我不认为ChatGPT和ClaudeCode会是唯一的super APP,我觉得那是一个非常灰暗的世界,我觉得肯定会有源源不断新的机会诞生。

可能今天就像是70年代PC刚刚产生的时候,我觉得还有很多很多事情需要做。

第二个判断,它会是个更线性还是多元游戏?因为确实过去几年大家能看到的是Pre-training、post training,然后Agent,Coding Agent,似乎有一个非常清晰的主线,这个主线是所有人都在做一样的事情,都在copy,这也是非常灰暗的事情。

但未来变得更单一还是更多元?我个人看法会变得更多元,毫无疑问Coding Agent生产力会变得更加重要,我觉得它是刚刚开始的事情,这个世界还有很多空间没有被填满,但是多模态、具身智能,很多很多新的事情都在发生,或者刚刚发生,所以从这个角度来说,如果我们认为下半场刚刚开始,可能确实不是完了。

过去模型、产品做了很多探索,走很多弯路,我觉得这是正常的,你如果没有做过一个事情,第一次做肯定有曲折,但是我觉得可能更重要的事情是说能不能诚实面对自己,能不能Be Real,能不能够去看到feedback然后去改变,能不能够保持耐心,这个事情是下半场最重要的事情。

汤道生:大家对于腾讯经常喜欢挑某一个点来批评,当然我觉得我们也很欢迎大家给我们提更高的要求。

我们是一个非常多业态,很多产品在很多的赛道,同时也有很多的团队在推进不同的项目、事情。

所以,毫无疑问,在这样一个复杂的组织里面有一些地方可能我们做得快了,有的地方做得慢了,有一些地方可能会做失败,在探索。

我觉得这些提醒都非常好,我觉得确实有一些地方我们是可以做得更好,但是就像你说的,这是一个长跑,这是一个马拉松,腾讯还是有非常丰富的场景。

在这样一个长跑,我相信模型会不断迭代,用户的需求也在不断变化,也会有新的产品形态出现,我觉得我们比如说今年年初对AI这一波热潮也反应比较快。

同时也有像WorkBuddy这样的智能体产品,其实也是几年前开始做的产品,沿着原来做Coding、CodeBuddy,慢慢看到非程序员也有很强的需求,我们也能比较快去应对,今天也听到很多客户对于我们的不同产品怎么去组合起来有非常高的期待。

所以我们正在长跑中,也请各位多给我们提醒,给我们建议,也多用我们的产品来给我们正向的反馈。