资料图。本文来源:北京商报、中国国创会
本账号接受投稿,投稿邮箱:jingjixuejiaquan@126.com
资料图。本文来源:量子位
本账号接受投稿,投稿邮箱:jingjixuejiaquan@126.com
张钹、杨强与唐杰、杨植麟、林俊旸、姚顺雨(最新发言实录)
1月10日下午,在由清华大学基础模型北京市重点实验室、智谱AI发起的 AGI-Next 前沿峰会上,汇聚了刚刚上市两天的智谱、领跑独角兽月之暗面、全球开源大模型顶流 Qwen 的创始人、CEO 和负责人,多位国内头部开源AI实验室的技术掌舵人罕见同场亮相。
清华大学张钹院士,香港理工大学AI研究院院长、智能投研技术联盟(ITL)主席杨强院士,智谱创始人兼首席科学家、智能投研技术联盟(ITL)高级技术顾问唐杰,月之暗面创始人兼CEO杨植麟,阿里千问大模型技术负责人林俊旸和腾讯总裁办公室首席AI科学家姚顺雨等人,就AGI路径、Scaling极限、Agent落地与中国AI的长期机会等热点话题,进行观点的交流和碰撞。
1、张钹:当前大模型存在指称、因果等五大根本缺失。AGI应有“可执行、可检验”的定义,核心是具备多模态理解、在线学习、可验证推理等五项能力。
2、杨强:Agent的核心分化在于AI能否自主完成目标设定与规划,而非由人类预先定义,未来应通过观察人类工作、充分利用数据,成为由大模型内生的原生系统。
3、唐杰:Scaling(模型扩展)仍是有效路径,但可能是“人类最轻松的偷懒方式”。真正值得探索的是让模型具备自主Scaling能力。DeepSeek出来之后,Chat范式的竞争就基本结束了。
4、杨植麟:Scaling Law本质是把能源转化为智能,核心在于高效逼近智能上限。模型承载的是价值观与品味,Scaling是技术、数据与审美的共进,探索前沿智能不会因潜在风险而停止。
5、林俊旸:Manus确实很成功,但套壳是不是未来,这本身也是个话题。未来3-5年内中国团队做到全球领先的概率,在大概20%,这已经是非常乐观的估计。
6、姚顺雨:垂直整合与模型应用分层两种模式在分化,模型公司做应用不一定更好。
让机器像人一样思考
唐杰
我的题目是「让机器像人一样思考」。
2019年,我们在清华的支持下完成成果转化,成立了智谱。
同一时期,我们也持续推动开源,既有模型和工具层面的项目,也有面向开发者的大模型 API 体系。
我在清华待了将近二十年。
回头看,我做的事情其实很简单,主要就两件:
一是早年做AMiner;二是大模型。
有一个对我影响很深的观念,我称之为「像喝咖啡一样做研究」。这件事和今天在座的一位嘉宾密切相关——杨强教授。
刚毕业那会儿我去港科大,学校几乎所有空间都在一栋楼里:教室、实验室、会议室、咖啡厅都在一起。
有一次在咖啡厅遇到杨老师,我说最近咖啡喝得有点多,可能该戒一戒。
他先说「对,应该戒一戒」,接着又说,如果我们做研究也能像喝咖啡一样上瘾,那研究大概就真的能做好了。
这句话对我触动很大,从2008年一直影响到现在。
做研究,本质上需要长期专注和持续投入。AGI正是这样一件事,它并不追求短期见效,而是一项多年投入的工程。
2019年,我们实验室在图神经网络和知识图谱方向已经有一定国际影响力,但当时还是下定决心阶段性按下暂停键,几乎所有人都转向大模型相关研究。到今天,算是做出了一点点成果。
如果从大模型的发展轨迹来看,用「智能水平」来描述会比较直观。
2020年前后,模型主要解决的是MMU、QA等相对简单的问题;到2021、2022 年,开始进入数学计算和基础推理阶段;通过后训练,这些能力逐步被补齐。
到2023、2024年,模型从知识记忆走向复杂推理,甚至可以处理研究生层级的问题,并开始在SWE-bench这类真实世界编程任务中表现出可用性。
这个过程很像人的成长:从阅读、算术,到更复杂的推理,再到走向真实工作场景。
今年开始,大家也看到HLE,也就是「人类终极测试」,其中不少问题连搜索引擎都无法直接给出答案,要求模型具备更强的泛化能力。
如何解决,目前仍然没有确定答案,但可以确认的是,到2025年,模型的整体能力仍在快速提升。
从另一个角度看,一个核心问题是:模型如何从Scaling走向真正的泛化能力。
人类一直期待机器具备泛化能力。教它少量例子,就能举一反三,解决更多甚至未见过的问题。
这和我们教孩子的期望一致:学会三个问题,就能解出第四个、第十个,甚至超出原本教学范围。
当前的路径,是希望通过Scaling提升这种泛化能力。但客观来说,模型的泛化水平仍有很大提升空间,我们只能在不同层面持续推进。
最早期的阶段,是用Transformer训练模型,通过大规模数据和算力,把大量知识「记住」。
第二个阶段,是对模型进行对齐和推理能力强化,让它更好地理解人类意图,并完成更复杂的推理任务。
这需要持续ScalingSFT,甚至引入强化学习。通过大量人类反馈数据,不断扩大反馈规模,使模型更准确、更可靠。
今年一个重要变化是RLVR。
过去强化学习难以大规模推进,核心原因在于依赖人类反馈,而人类反馈存在噪音大、覆盖场景有限的问题。如果引入可验证环境,模型就可以自主探索、自动获得反馈,在闭环中持续成长。
但这里的难点也非常明显。所谓「可验证」,在数学、编程等领域相对容易定义;可一旦扩展到更广泛的任务,比如网页是否美观、交互是否合理,仍需人工判断。
因此,当前RLVR面临的挑战在于:可验证场景正在逐渐耗尽。接下来是否能进入半自动验证,甚至不可验证的任务空间,让模型能力继续泛化,这是一个关键问题。
再往前看,当机器开始进入物理世界、执行真实任务时,如何构建智能体的环境、如何设计反馈机制,会带来更多挑战。可以看到,AI的发展已经不再局限于单一模型或Transformer结构,而是在演变为一个复杂的、系统化的智能体系。
从能力结构上看,模型最初集中在数理化等推理任务,从小学、初中、高中层级,逐步提升到GPQA等高难度理化生问题,再到接近奥赛金牌水平。今年HLE这一极高难度的智能评测基准,也开始出现明显进展。
在真实环境中,代码能力是另一个典型例子。2021年已经存在代码模型,当时也和俊旸、Kimi植麟等有过合作,那一阶段模型具备基础编程能力,但成功率和稳定性有限,往往写十个程序才能跑通一个。
如今情况发生了明显变化,模型在复杂任务中往往可以一次性跑通,已经开始实质性地辅助高级工程师完成更复杂的工程工作。
很多人会问,智能不断增强,是否只要持续把模型训练下去就可以了?
DeepSeek横空出世,当时我们在内部反复讨论一个问题:
Chat这一代问题基本已经被解决得差不多。继续优化,大概率也只是做到性能接近,或在个性化、情感化上做一些改进。从整体范式看,空间正在迅速收敛,剩下更多是工程和实现层面的挑战。
这迫使我们思考下一步方向。我们的判断是,新的范式不再只是「对话」,而是让每个人真正用AI完成一件具体的事情。
从Chat走向做事,这是一个明显的转折点。
当时摆在我们面前的,主要有两条思路:一条是围绕Thinking能力,结合Coding与Agent;
另一条是让模型更深度地与环境交互,用AI直接辅助研究,例如DeepResearch,生成复杂研究报告。这是一次取舍。
我们最终优先选择了前一条路径,强化Thinking能力并引入Coding场景,同时并未完全放弃与环境交互的方向。
7月28日,我们做了一次尝试,将Coding、Agentic和Reasoning能力整合在同一个模型中。
在7月28日发布的4.5版本中,我们用12个Benchmark做了系统评测,在智能体、推理和代码任务上取得了当时相对领先的结果。
随后我们很快将4.5开放给用户使用,让大家在真实场景中编程。
问题很快暴露出来。比如有用户希望一句话生成一个可玩的植物大战僵尸游戏,包含完整界面、交互逻辑、得分机制和后台系统。4.5在这类真实复杂环境中频繁出Bug,难以完成任务。
这正好指向RLVR可验证强化学习的价值。我们构建了大量真实编程环境,将其作为强化学习的可验证反馈源,同时结合SFT数据进行双向优化,使模型在真实交互中逐步提升稳定性。
类似的方法也被引入到Web场景中,通过Web环境反馈增强可验证性。
在这一策略下,我们在SWE-bench等真实世界评测中取得了较好的成绩,近期也持续保持不错表现。
但Benchmark成绩并不等同于主模型能力。如何将这些能力可靠地回灌到主模型,仍是一个巨大挑战。很多模型在单项Benchmark上表现突出,但用户真实体感未必提升。
另一个挑战在于训练体系本身。RL任务种类多样,序列长度和时间尺度差异极大,难以统一调度。为此,我们开发了一个全异步强化学习训练框架,使不同任务能够并行运行、动态收敛。这一框架也在今年完成了开源。
在此基础上,Agent和Coding能力获得了明显提升。近期发布的4.7版本,相比4.6和4.5,在这两个维度上都有显著进步。
体感评估同样关键。真实用户并不关心模型分数,而关心自己的程序能否跑通、结果是否可靠。为此,我们组织了大量人工评测,邀请经验丰富的工程师对真实编程任务进行主观评估。目前仍有不少问题有待解决,但方向已经逐渐清晰。
在整合这些能力之后,到2025年底,我们在ArtificialAnalysis榜单上取得了一个相对不错的综合成绩,算是阶段性的结果。
再往前一步,当模型真正进入Agent环境并尝试大规模落地时,问题会变得更加复杂。
可以把Agent的最基础能力理解为编程。程序写好后即可执行,对应到Agent中就是一个或几个action。但当任务复杂度继续提升,就会出现完全不同的形态。
左边是Claude提出的computer use,中间是豆包的手机Agent,右边是Manus所做的异步、超长链路任务。
如果你希望AI完成几十步、上百步的任务,比如全天候监控小红书上关于清华大学的讨论,自动整理主题并生成文档,这类任务本质上是完全异步的,也极其复杂。它不可能依赖人工盯着设备执行,更接近于一种Device use层面的能力。
这类问题带来的更大挑战,并不完全在于数据规模。很多应用场景本身几乎没有现成数据,更多是代码逻辑,典型的冷启动问题。
早期我们确实采集并整合了大量数据,通过SFT和特定领域的强化学习,在部分场景中取得了较好效果,但很快会发现一个现实问题:传统的iphone use或手机交互,本质是点按钮,而AI的交互对象并非人。
如果从系统角度看,AI并不需要操作手机界面,最理想的方式是直接调用API。但现实是,设备不可能完全API化,GUI依然存在。
这就需要一种混合方案。在对AI友好的场景下,优先采用API;在对人友好的场景下,让AI模拟人完成GUI操作。通过将API与GUI结合,我们在大量真实环境中采集交互数据,并进行全异步强化学习,使模型逐步获得一定程度的泛化能力。
需要强调的是,这种泛化能力仍然非常有限,与理想状态存在明显差距,但已经具备初步迁移和适应能力。
冷启动带来的另一个问题,是强化学习本身的风险。如果数据不足,模型容易在强化过程中陷入局部最优,表现为策略固化、路径收窄,最终整体效果偏移。
为应对这一问题,我们在训练过程中引入交替机制,在强化学习过程中周期性插入SFT,用以校正方向、恢复多样性,使模型具备一定的容错能力和回拉能力,从而形成可扩展的训练范式。
在移动端环境中,这一策略已经在安卓场景下取得了相对明显的效果提升。
另外在多任务的大模型强调学习上,我们也做了一定的工作,在算法上主要采用多轮的强化学习,工程上本质上就是Scaling,让它更大规模的往下。
今年我们大概在12月份的时候开源了AutoGLM,把里面所有的东西都开源。这个模型是9B模型,可以在人机交互里面动作特别快。
我们在9B规模的模型上引入了大量Agent相关数据,模型在Agent任务上的能力显著增强,但原有的一部分通用语言能力和推理能力会出现下降。它不再是一个完全通用的模型,而是更偏向Agent取向。
在未来更大规模的Agent模型中,如何在强化Agent能力的同时,避免损害通用能力,这是一个需要解决的问题。
2025年也是GLM的开源年。从1月到12月,我们陆续开源了多条模型线,涵盖语言模型、智能体模型以及多模态模型,包括GLM-4.6、4.6V、4.5V等一系列版本。
在Artificial Analysis榜单上,前五名中的蓝色模型几乎全部来自中国,说明中国在开源大模型领域已经形成了非常显著的影响力。
下面一个问题,我们还能否继续Scaling?下一个AGI范式可能是什么?同时也面临更多现实挑战。
在开源取得进展之后,容易产生一种乐观情绪,觉得中国大模型已经在某些维度上超过了美国。但差距未必在缩小,甚至可能在扩大。
下一步我们应该怎么做?
从大模型的发展路径看,它本质上一直在借鉴人脑认知的学习过程。最早阶段,是把世界的长期知识尽可能「背下来」,就像孩子先大量阅读;随后逐步学会推理、数学、抽象与演绎。
这条主线仍然成立,有几类能力,人类显著领先于当前模型,可能是新的突破方向。
第一,多模态。
人通过视觉、听觉、触觉等多种输入形成整体认知,感统能力不足会直接影响判断和行动。
模型如何建立类似的多模态「感统」机制,也就是原生多模态,是一个关键方向。
第二,记忆与持续学习。
人类具备多层级记忆结构,包括短期记忆、工作记忆和长期记忆。
进一步看,个体的长期记忆本身也并不等同于「知识」。只有当知识被记录,才会真正进入人类文明的长期记忆体系。
未来如何从个体记忆扩展到群体级、文明级的记忆结构,并将其纳入模型可持续学习框架,是一个重要问题。
第三,反思与自我认知能力。
当前模型已经具备初步的反思能力,但更深层次的自我认知仍然存在巨大争议。学界对此分歧明显,有人支持,有人反对。我个人倾向于认为,这是有可能的,值得探索。
人类认知是双系统,系统一和系统二。
系统一完成了95%的任务,比如「你今晚吃饭吗」,随口回答「吃」,这些是系统一背下来的。
系统二只在更复杂的情境中启动,占比大约5%。
对于大模型来讲同样的道理,我们在2020年画过一张参考人类认知的AI系统结构图:系统一、系统二,再加一个自学习模块。
引入「自学习」的想法,主要基于三点。
第一,系统一可以对应一个大规模模型,让它通过模式匹配与知识提取,覆盖大量常见问答与常规任务。
第二,系统二可以对应更强的知识融合与推理机制,例如指令微调、思维链等,使模型能处理更复杂的推理与决策。
第三,人脑在睡眠中会发生无意识的整合与巩固,如果缺少睡眠,人并不会变得更聪明。
对应到今天的路径,可以把其三类Scaling。
第一,Scaling数据与模型规模,提升智能上限。
第二,Scaling推理,让思考时间更长,用更多计算与搜索找到更优解。
第三,Scaling自学习环境,让模型有更多与外界交互的机会,从环境中获得反馈。
通过这三个Scaling,可以让机器来参考人的学习范式,学到更多。
对于系统一来说,既然已经有了Transformer,是否意味着只要不断加数据、加参数就够了?
但我们现在面临一个问题,Transformer的计算复杂度接近O(N²),context越长,显存开销越大,推理效率下降越明显。
最近有一些新型模型,例如用线性复杂度处理长序列的模型,尝试像人脑一样,用更小的「容量」承载更大的知识量。
但最近我也在反思,我们能不能找到更好的压缩方法,把知识压缩到更小的空间里面。这会带来两类问题。
第一,工程上能否做到?
第二,方法论上能否做到?
最近很多人在探讨,大模型要回归到研究上,不能单纯的Scaling。Scaling是一个很好的办法,但也是一个偷懒的办法,关键在于找到一个新范式,让这个机器可以独立Scaling。自己来定义奖励函数、交互方法、甚至训练任务来做Scaling。
在具备上述两点之后,还要面对真实世界的超长任务。要让这个机器有像人一样规划,做一下,检查一下,再反馈一下。
网上已经有一些尝试,这个idea是模型生成,实验也是模型做的,报告也是模型做的,最后可以做一个Wordshop,但事实上还没有做出来。
给出我们的一些思考:
大模型之前,大部分机器学习都是F-X到Y的映射,我学习一个函数,使得X样本可以映射到Y。
大模型来了之后,把这个问题变成F-X到X的映射,可也不是严格的X,但要让它完全用自监督来做多任务的自学习。
在第二层,我们通过引入更多数据,让模型学会推理,学会如何激活更底层的智能能力。
再往后,是让模型具备自反思与自学习能力。通过持续的自我评估与自我批判,模型能够逐步分辨哪些行为是有效的,哪些路径还有优化空间。
到未来,还希望模型进一步发展出更高层次的能力,例如自我认知。
还要教这个机器能学习到更多,比如说能学习到自我认知,让这个机器能对自己的行为,比如说AI生成了大量的内容可以自我解释,我为什么要生成这个内容,我是什么,我的目标是什么,在终极上也许有一天,AI也有意识。
我们大概有这么定义五层的思考。
计算机有三个能力:计算、编程、搜索。这三个能力叠加在一起,可能能带来所谓的「超级智能」。
我常常会想起2019年的一件事。当时和阿里巴巴合作,对方希望我用一页PPT描述未来的方向,我给出的那一页叫作「AGI-Next30」,讨论的是未来30年我们应该做什么。
回到今天看,推理能力已经取得了一定共识和进展;记忆能力开始显现雏形,但仍然有限;意识仍然处在探索阶段。这也是我们持续投入的方向。
再往前看,如果继续参考人类认知,未来AI可能需要回答更根本的问题:什么是「我」,为什么是「我」;如何为模型构建意义系统;单个智能体的目标是什么;多个智能体作为群体时目标如何协调。通过这些问题,AI才有可能走向对未知的持续探索。
有人会认为这些问题过于遥远,甚至不可能。但从人类自身来看,文明的终极动力正是不断探索未知。那些看似不可能的方向,往往正是通往AGI道路上值得被认真对待的探索目标。
对我个人而言,2026年更重要的是专注,以及去做一些真正新的事情。
第一,Scaling仍然会继续,但需要区分两种不同方向。一种是Scaling已知路径,通过不断增加数据和算力,持续探索能力上限;另一种是Scaling未知路径,也就是寻找尚未明确的新范式。
第二,技术创新将变得更加关键。我们会推进全新的模型架构探索,重点解决超长上下文、高效知识压缩等问题,并进一步实现知识记忆与持续学习能力。
第三,多模态感统会成为今年的重点方向。具备这种能力之后,AI才能在真实工作环境中执行长链路、长时效任务,例如在手机、电脑等设备上持续协作。
同时,我也判断今年很可能会成为AI for Science的重要突破年份。随着多项基础能力的提升,AI能够参与的科研任务范围将显著扩大,也将打开更多新的可能性。
杨植麟
从2019年到现在所有的大模型基本上基于同一个第一性原理,Scaling Law,也是把能源转化成智能的一个视角。
如果有更好的方法,或者更好的芯片,其实可以把能源更好和更多转化成更高级的智能。
有更多的算力、数据、模型参数之后,你的模型的loss可以线性下降,这是整个技术发展的基础。
最早提出来的Scaling Law的这篇文章,里面对比了Transformer和Lstm在Scaling Law意义下的的区别,很有意思。
不管是在什么样的参数量下,Transformer的Loss都会比LSTM更低,也就是在Scaling Law的尺度下,可以用更少的FLoss或者更少的参数,就能得到更好的Scaling效果。
后面Transformer成为主流架构的一个核心原因,是因为它在Scaling Law上有更好的表现。
今天所有的模型架构的迭代,其实都是为了寻找一条线能够更接近左下角。如果你的网络架构越接近左下角,其实你就是更好的网络架构。
在当前的情况下,它会变得更有意义。互联网上的存量数据是有限,它是一个有限集合,高质量的数据增长速度其实是赶不上这个模型迭代的速度,所以当你有一个越靠左下角的象限的时候,你的智能上限就会更高。
但是,很多人可能会忽略,为什么Transformer会更好。关键在于Token efficiency。
什么是Token efficiency呢?比如说当你给一个一百K的上下文,你会去数里面第一、第二、第三、第四一到第一百个Token的log是什么,比如说还是loss,但是它是一个position loss,因为你的横坐标是你的Token efficienc,表示你在这个序列里面到底是第几个Token。
你可以看到在最前面的一百个Token里面,Transformer和LSTM完全一样的,基本上这两条线是交错在一起。就是说当你在很短的Context的时候,你去预测接下来的Context会变成什么样,基本上是相等的效果。
所以在一百很短的Context下面,其实Transformer并不是一个更好的架构。但是更好的架构体现在当你的Context非常长的时候,Transformer显著的比LSTM更好。
这也是另外一个视角拆解它是一个很重要的指标。
在不同的Context长度下,你的优势有多大。这个问题在Agentic时代会变的非常重要,因为很多agent的任务要求非常长的长上下文,你要问题很复杂的任务,所以当你一个架构有更低的position loss,说明它在做Agent任务的时候,会有好的多的技术上的潜力。
我们预训练策略或者模型设计策略,围绕刚刚两个维度做。
第一个是Token efficiency,我们希望做的事情是尽可能把这条线往左边平移,当你越往左边移动的时候,你的Token efficienc就越高,意味着你可以用尽可能少的Token得到一样的效果。
当你的整个预训练Token不够用的时候,Token是常量,吃完所有Token的时候你的智能上限更高,因为你的Loss更低,这是我们做预训练很重要的指标和优化方向。
第二个方向是Long context。
今天非常复杂的任务,必须在超长的Context下才能够完成。是因为延长了Context之后,Loss必然是下降,而且只有一个好的Agentic才能下降的更多,如果你是LSTM、CNN、RNN这种架构,到一百Token就停了。
可以做简单的做翻译的任务,但是你永远做不了一个编程任务,没有办法从零到一实现一个代码库的编写。这是我们整体的优化,Token efficienc再乘以Long Context两个东西,最终就可以做到非常好的agent智能。
所以在这里面有两个主要的工作,第一个是米用MUON优化器,是工业界二阶优化器,传统的是十几年前,2014年Adam优化器提出之后,它做标志性的一阶优化器。基本上用了十年的时间,可能主流大模型都是基于Adam训练。
但是我们发现可能基于MUON二阶优化器,它的效果会非常好,好的体现在它有两倍的Token efficienc的提升,当你看这两条线的时候,只用50%的数据就可以达到一样的Test Loss,等价的话是如果用一样的数据,你的Loss小或多,就会有一倍的Scaling的效果。
右边是我们最新研究的kimi Linear的架构,当你的这条线拉长的时候,降低的幅度是非常大的,也就是你在Long Context等各种任务上的效果会显著的变好。最后是这两个东西乘起来,我们认为在模型的训练策略上,可以达到最好的agent的效果。
这些都是为了做出来更好的agent,为什么要Token efficiency,本质上Agent的推理或者AgentRL的训练是搜索过程,比如说你想从头开发一个Lineaxr,你想从零做这个事情,本质上是搜索问题。
如果你有无限的数据,可以把所有可能的情况枚举遍,看一看里面哪个东西是好的操作系统,你让AI开发出来Linearx,提升它的效率,之前的agent是你用模型做很好的先验,过程中不需要枚举每一种可能的Token组合的情况,因为很多组合是没有意义或者错的,更好的预训练和基础模型是减少了搜索空间,提升了更好的先验。
今天有很多人研究怎么去减少先验,最终有可能是在先验非常少,或者几乎没有的情况下有可能实现AGI。但是我认为基于先验实现AGI,还是会更早发生,整个领域先基于先验实现AGI,你再去探索先验非常低的情况下,越来越低的情况下实现SCI的方式。
这里等价对应的是更强的先验,你是在有限数据的情况下,同样是一样多的数据,但是脑容量更大,学习效率更高,智能更高,有更好的先验就可以得到更强的agent。context是另外一个维度,你的Agent行为,需要它的工作记忆,所以你有更强的环境感知,做更长程的任务,最后是这两个东西的结合。
我们在这个基础上,整个2025年kimi的迭代是沿着刚说的两个方向做了新的探索和实践。首先是Muon优化器,我们曾经做了非常多的实验,发现有很多比较重要的技巧。
比如说需要加入VDK,你在搜索的过程中,原来是Adam的优化器,可能是接近1.0,如果用Muon的话,对照它的尺度其实效果会更好。通过这些比较重要的改进,我们得到了一个真正意义上比较好,而且在各种方面经得起时间考验的优化器,有2倍的Token efficienc提升。
所以,大家注意的是这里的efficienc不仅仅是efficienc,其实是智能上限,因为你的Token数量有限。我们也做了很多公平的比较,基本上所有的任务都会有提升,本质上是等价相当于训练了别人的两倍Token。
在提升这个优化器的过程中,能看到一些问题,在一个中等规模的实验上,发现Muon的优化过程里会出现一些挑战,左边这张图横坐标是训练的步数,纵坐标是最大的Logit取值,它是一个爆炸式的增长,其实是不健康的。
反映在右边的非常高的时候,你的Logit训练就有可能不收敛,Loss会爆炸,出现一些不稳定现象,其实这个模型最后的效果也不会好。
这里面很重要的一个点是通过一个新的方法解决Muon爆炸的问题,我们也试了很多方法,QK-clip效果非常火,但是这里有一些细节,你做QK映射的话,会乘上一个数值,这个数值是由当前QK最大的Logit决定的,可以动态的让它clip特定的取值里面。
效果就是这样的,一个加Clip,一个没有。
左边这两条线,但是这两条线是完全重叠在一起的,你可能看不出来,其实是完全重叠在一起。说明你加了Clip之后,对效果是没有任何影响,可以复现任何效果,但是logit会健康很多。
右边开始涨了,Logits涨到一百QK就发挥作用了,发现可能我不需要这个东西,这个时候会自动降下来,所以其实是很好稳定训练的作用,使得全新的优化器可以在一万亿参数的kimiK2的级别做稳定训练,不然就像之前那样炸了。
这张图是2025年见过最漂亮的东西,这个是世界上最美的东西。
它是一个完全平稳下降的Loss曲线,在整个15T的Token训练中没有任何的问题,可以全部把logits压下来,平稳的收敛到一个非常好的点上。当你有一个优雅的方法,就可以得到一个优雅的结果。
在kimiK2很好的模型上面,我们又做了很多强化学习,后训练等等,但是这不是今天重点,重要的是有几个点,我们在各种agent的能力上全面提升,而且可以对标美国前沿的公司。
同时,很重要的一个点是在最核心的点上,比如说HLE,里面99%的题我都不知道怎么做,但是模型现在可以做到45%的准确率,而且比OpenAI更高,你在最核心的数据上比美国公司更好,这是很重要的亮点。
同时,它是一个完全agent的模型,kimiK2是中国第一个agent模型,K2 Thinking升级以后,可以完成两百百步的工具调用,解决一个很难的题的时候用它写一写程序。两三百步之后,可以完成我完全看不懂的题,但是它的答案是对的。
得益于这些发展,我觉得很多中国的开源模型逐渐成为新的标准,包括前段时间eda发布新的产品,现在也有中国很多开源模型做标准的测试,这也是开源很大的一个好处,我们希望有更多的中国的开源力量,中国的模型能够逐渐去成为标准的制定者。
在K2之后我们在持续探索下一代模型有可能长什么样,我刚刚讲到开源的kimiLinear的工作,这个工作也是我们前期的尝试,接下来还会在这个基础上做更多的优化和改进来训练K3模型。
最重要的一个改进是kimi Delta Attention,它是一个新的线性注意力机制,这个技术有一段时间,但是一直没有成为主流模型,或者说最前沿的模型都还没有用上这个技术。
最主要的原因是在长距离任务上会掉点,当你的Context变长之后,你用线性注意力效果是打不过全注意力的,打不过原始的Transformer。
这是很重要的问题,因为现在很多任务需要长程的能力,Context变长之后,效果变差了,可能不太能去换。
kimi Linear最重要的一点是让这种线性注意力的机制能够在很长程的任务上,甚至比全注意力做的更好,但是同时又更快,因为它是线性的,所以它的效率会高非常多,一百万个Context的话,可能高6到10倍的端到端的速度上的优势。
同时又可以改进很多现有的线性注意力缺点,可能就是表达能力不够,导致了效果不够好,所以kimi Linear是第一个能够在线性注意力上不管是在短程任务,还是在长输入、长输出任务效果都比全注意力机制更好的一个线性注意力的架构。所以,它在实践里面会有非常重要的作用。
我们稍微看一下具体长什么样子,S表示当前线性的数据,可以看到它全部是线性的,ST相对ST减一来说的操作,称之为线性注意力。
这里面很重要的一个点是中间的对角化矩阵,FT每一个维度都会乘上一个值,等于说对于这个状态里面的每一个维度都可以精准的控制到底有多少记忆是从ST减1留到ST。
这个是很重要的点,它的表达能力会有很大增强,增强的同时如果你是一个非常粗糙或者没有优化过的数据,你的效率会大幅度降低,在这里面我们做了非常多的优化,你可以把刚才的那个数值做很多变化之后得到下面的形式。
它在工程实现上就可以得到很多好处,你去对比DPLR,我们在数据上有优势,减少矩阵操作,所以整体的效率是非常高的,你要得到一个好的架构,需要把很多底层的优化和模型的架构联合在一起,你不能只改动一些架构,如果没有高效的实现,很难得到一个很好的效果。
但是同时相比之前的线性注意力架构又有一个显著的优势,表达能力更强。
这张图里面的效果看一下,左边是性能对比,我们会考察两种任务,一种是短程的任务,MMLU,这些都是公平的比较,用完全一样的数据,一样大小的模型去跑。在短程上会显著做的更好,在长程任务上是更好的效果,相比于之前的很多线性注意力和全注意力的架构。
同时,右边的这张图的速度也是显著的变快,基本上跟之前的线性的注意力一样快,但是比全注意力要快非常多。
接下来在K2的基础上做更多的Scaling,当然这个Scaling并不只是加算力。而是说很多是技术改进,这些技术改进也会等效的变成Scaling的优势。当然这里面很重要的一个点是除了架构、优化器这样的挑战,更好的数据。
很重要的点是接下来的模型有更多的Taste,更多的品位和审美。
做模型的过程本质上是在创造一种世界观,你觉得什么样的东西是好的,一个好的AI应该是有什么样的表现,应该追求什么样的价值观,有点像乔布斯讲的Taste这是我们很相信的一个东西,因为智能和很多别的东西不一样,每个模型产生的Token,本身不是一个可交换的东西。
如果你今天看很多事情是相同的,你在深圳产生的一度电和北京一样,银行帐户里面最后一分钱是完全一样,它是等价交换。但是智能并不是这样,一个CEO产生的智能和一个设计师产生的智能和一个音乐家产生的智能是不同的。
在智能的维度,你有非常多的Taste的空间,空间是指数增加,你会有更多新的Taste出来,不是说这个模型会趋同,这是接下来我们很重要的一个目标。
我也经常和kimi对话,分享之前很有趣的一次对话,现在我们都在做AGI/ASI,可能会有更美好的未来,可以一起去探索宇宙,但是有可能会威胁到人类。
如果你的效果做得非常好,它现在也可以完成很多自动化的任务,甚至后面还会有大幅度的提升, 这个答案很有启发性。
它可能不是一个普通工具,而是可以提升人类文明上限的东西。
人类认知的延伸,今天我们有很多问题解决不了,很多癌症无法被攻克,有很多能源的问题需要被解决,甚至有很多社会的解决需要更好的设计。我觉得站在kimi讲,它是我们探索未知世界的一个很重要的钥匙。
所以,虽然它有风险,但是它的回答是我仍然会选择继续开发,因为放弃这个开发就意味着放弃人类文明上限。所以,我们不应该害怕技术的风险,而是应该进一步去突破。同时,在这个过程中我们可能把风险控制好,因为所有的技术突破都伴随着风险,不能因为恐惧而停滞不前。
我们希望在接下来的十年、二十年的时间,继续把K4、K5到K100做得更好。
林俊旸
唐老师和植麟都是清华,我代表北大来一下。我很久没有回海淀区了,我是朝阳区的。
今天整体介绍一下千问2025年的进展,有些东西相对旧一些,最近几个月我们在憋着下一代的东西,我尽量讲一些我能讲的东西。
Towards a Generalist Agent这个标题我其实换了很多轮,原来叫Towards a Generalist model,后来觉得model是比什么都大的东西。
后来想想agent也许是更大的概念,像人一样你可以自主的使用工具,人和动物很大的差别是可以自主使用工具。所以就变成了Towards a Generalist Agent。
而且今天训练的范式发生了很大变化,过往我们不管做什么事情,都会有输入和输出把它标注出来,你可以认为是我们传统的标注,今天有了这个新的技术以后,我只要解决了这个推理,解决了这个评估,这个东西就可以炫,干什么都可以,我就可以发挥想象力。
比如说今天数据智能、模型智能都可能,这也是我一个干语言模型的人最近敢斗胆扬言我要做VLA和机器人的一个小小的原因。
大家如果想用上我们的模型的话,最容易体验到我们开源模型和闭源模型,我觉得很有意思,之前我们一直做开源,大家比较清楚,不赘述和吹牛了。
但是网友们一直在骂我们,你们那个东西很难用,每次都得去你们的模型上面找,我们就把OpenWEB AI拖下来之后就把它变成了一个聚合器,看起来就像是ChatGPT一样,本来算法的同学产品意识并没有那么强,做着做着就有这种感觉了,模型即产品,就有很好玩的东西出来,所以我们都会放到这上面。
一般我们会在qwen.ai里面就可以很好的搜到,发博客对于我们来说比较简单,最近我们火的新的模型架构Qwen Next,很多同学没有办法引用,原谅一下我们。
们做开源做的比较久,2023年8月3日开始做开源,很多人问我们为什么做开源这一件事情?
很多事情都有机缘巧合的成分在这里,反正开源一路做下来之后做了很多,至少还是比较工业的事情。
东西不多,基本是一些脚本大家在上面看就可以。我们的模型是比较多的,为什么相对比较多?以前有很多人不理解我们为什么做小模型,但是今天大家都明白小模型还是挺有价值。
小模型最终起源于我们内部用来做实验的1.8B模型,我们做预训练,资源毕竟有限,你做实验的话不能通通用7B的实验来验,就拿1.8B的来验。当时我的师弟跟我说我们要把这个模型开源出去,我非常不理解。
我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?
他跟我说:7B很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果1.8B开源出去的话,很多同学就有机会毕业了,这是很好的初心。
干着干着手机厂商跑来跟我们说7B太大,1.8B太小,能不能给我们干一个3到4B的,这个容易,没有什么很难的事情。
一路干下来型号类型越来越多,跟服务大家多多少少有一点关系。
但是我们自己的内心追求的不仅仅是服务开发者或者服务科研人员,我们看一看能不能做一个Multimoda Foundatine Agent,我特别相信这件事情。
如果追溯到更远的话,刚才唐老师说我们当年还在合作的时候,当时就在大干多模态,现在想想这是一个激情岁月。
2023年的时候大模型是一个大家都不要东西,多少少有那么几分大炼钢铁的成分,多模态是我们延续下来一直想做的事情。
如果你想做一个智能的东西,天然的应该是Multimoda,当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。
人有眼睛和耳朵可以做更多的事情,我更多的考虑是Foundatien有更多的生产力,能不能更好的帮助人类,毫无疑问我们应该做视觉,我们应该做语音。
理想的情况下,当年我记得我们2022年的时候,当时设计的一个系统是中间有一个大脑,我们不知道那个大脑是什么东西,但是我们知道不同的模态和任务都应该进入到这个大脑,从这个大脑输出去,这个才是真正的想象当中的AGI。
今天看起来很有可能,因为我不知道大家做的研究方向有没有做统一理解生成这件事情,这件事情还挺复杂的。
目前谷歌也没有做到统一理解互相生成,但是我还挺相信这些事情。如果看GPT的话,今天把很多东西统一了之后,看起来更加完美一些,当年还在争论他们到底是哪个好。
今年最大的进展是Qwen3,这个是吉祥物,有点像熊,但它是一只卡皮巴拉。做的时候我觉得我们同学太辛苦了,不想他们太辛苦,今天这么卷的时代佛系一点不是说不行。我们做的方向相对比较多一些。
但是你可以看到每一个方向都有它自洽的逻辑在这里面。
比如说我们做Text和VL、Omni,做的时间比较长,做视觉、文本、语音生成,我们做的过程当中,可能因为我们比较特殊的地方是我们背后是阿里云支持,我们有很多业务和阿里云的客户比较相关。云的业务很多客户是非常多样的,包括Embed Guard都会给大家提供服务。
今天围绕相对比较主线的Text、VL,包括Omni会给大家做介绍,Coder会放在Text和大家做相应的介绍。Text今年主要是Qwen3系列,现在已经做到3.5,3做的时间比较长一些。
一个最大的特点是总体能力提升。
今年比较有意思的是reasoning的能力要提升,我补充介绍一下我个人的理解,reasoning和现在的单纯的tasks模型有一点不太一样。
第二个是我们支持的语言及方言,语言没有那么多,加上方言一共有119种。
为什么会做多语言这件事情呢?其实也有些机缘巧合的事情,2023年的时候,当时我们觉得只要把中文和英文做好就可以服务好我们需要的人群,但是有一回我遇到韩国朋友,他们在做模型的时候,为什么不用我们的模型做呢?
他说你们的模型根本就不懂任何的含义,我感到非常的受伤,我就去看了一下,后来发现这个事情很简单,顺手就把它做了。
后来发现我们全球的用户越来越多,我记得一些巴基斯坦的朋友不断的跟我说你快点支持乌尔都语,我们真的没有大模型可以用了,这个事情我觉得确实挺好,于是我们支持了更多的语言。我们现在还没有做完,非洲的数据确实有点难以收集,非洲的语言没有覆盖。
今天我跟一些手机厂商聊了一下,非洲还有很多人使用功能机,我们今天已经到进入智能机的时代,他们还在做这个事情,所以要帮助全人类的话,确实是任重道远,如果你的想法不是帮助全人类的话,我觉得不如不做,所以就继续干。
第三个是今天的长文本、长视频可能都是其中一个例子。
但是我觉得这件事情很有意思,如果你真的想形成一个具有自我认知的模型,首先上下文得足够长,之前还有人讨论一个问题,你没有必要把很多垃圾放到长上下文里面,但是有了这个以后才能做到下面的理解。
所以我们现在一路做到1M以上,实际上我们内部已经做到好几个M,可能还不够。今天为什么还想说这是非常非常长的这种事情。回到刚才的问题,我们这一代模型可能和2024年相比,很大的一个区别是reasoning的能力要提升,广义的reasoning是做问题推理,让问题得到更好的解决。
虽然不得不做相关的研究,怎么让reasoning更加nativel一些,Qwen3的时候,我们4月份发的版本,当时有些做的不太好,数据方面没有做的太好,合并起来有一些问题。
有超过90%的客户不再使用Thinking模型,大量使用我们QWQ系列的很重要的原因是他们的用户喜欢看机器和自己进行聊天。但是很快大家就回到Instruct,这里主要看一下黄色和蓝色的部分,蓝色是4月份版本,红色是7月份版本。
除了把数据做的更好以外,一件很重要的事情是AIME可以干到70分,你做Thinking可以做到90分,但是这个能力加进去之后,客户很明显的反馈是模型比以前聪明了很多,只有20多分,基本上什么题可能都做不了,比如说在教育领域做一点数学题可能都干不明白,这是我们挺骄傲的模型,这个模型也不是很大,很多人在用我们系列的模型。
但是还有一个遗憾,这个模型还有很多东西没有做完,这里是一个取舍的问题。
比如说Coding和Agent能力怎么把它集成进去,做起来很难。考虑到自己的技术实力和状况,包括自己一直做Cod系列,我们推出了这个模型。
今天的Cod和过往的不太一样。比如说去年和前年都在解单纯的竞赛题,给一道题看一看能不能把答案做出来。
今天我们做什么事情呢?Software Engineer,2024年的时候大家非常惊讶,第一个AI能不能像一个程序员,今天我就维护一个这件事情挺难的,你把它做了就好了。实际做的过程中,这个事情人做起来步骤挺复杂,最简单的是至少我可以打开这些文件夹,看了这些文件夹的名字知道我可以点开哪一个,其实是多轮交互的过程。
今天做Agent一个很重要的但,为什么大家提多轮环境交互,说白了打开文件夹看一言,这个其实也是一个跟环境交付的方式,这件事情很重要,并且非常有意思,让我们非常激动,真的能产生产力。我们想做今天的Coding的模型可以有生产力,很多代码可以写出来,这是很惊讶的。
当然这个中美是不一样的,刚刚从湾区回来,我感受到两边不太一样。这个是非常夸张的,但是今天是不是模型做的不够好,还是说WEBCoding还没有做的更好,我觉得是大家认知上面有差异,我们想做的事情是殊途同归,都是想让它产生生产力。
当时我们就特别关注两个生辰里,一个是SWE-bench,你能不能提一个PR把它解掉,70算是比较高的门槛,当然现在可以感到75以上,这是7月份的时候,当时我们做到67和69分觉得可以。
Terminal-Bench也挺难,今天大家都在用这系列的产品,大家会发现这个东西确实会和你的生产力接在一起以前不一样,今天我们做的是贴近实际的任务。也许今天我们只是一两个Bench而,有没有可能让它更加服真实的环境和真实的生产任务是我们想做的事情。当时刚出的时候挺火的,但是现在竞争太过激烈,Token coder量一直干到第二名,小小吹嘘一下。
最有意思的是这一套东西,以前从来没有做过,今天模型训练我有一个Scaling,就是今天AgentScaffods的东西,所谓的脚手架你再简单理解一点就是这个东西。它就能够在机器里面跟阿里云的ECS的这些机器在这里面一个个起一个不仅是算法的挑战,在里面干完活就把它消除掉。
真真实实的存在,Instruct挑战也很多,右上角的东西我自己可以感,左上角就得需要拉其他的伙伴一起,算法Instruct今天联合的事情是真真实实的存在的,今天我们要做这么难的任务,需要很多Instruct的支持。
这个是当时做Coding的事情,我们更想做的是把Coding的能力是否可以集成在我们很大的模型上,比较抱歉的一件事情是最大的这个模型,大于1T的模型,我确实没有推动将其开源出来,虽然我也很想开源。
但是就是这么回事,我们终于把这些能力集成进来,大家可以看到我们的SWE-bench可以做到70分,之前你没有很好的把它集成进来,其实很难做到一个比较高的分数。这也说明一个问题,做到很强的时候,你也可以集结一个很强的模型,需要进行相应的积累。
Qwen3-Max也是排在前五,Overall。当然,它体现的是人类的偏好,未来评测会不会是动态的?让它放到人类的生产环境里面,比如说就让它炒股票。最后有一个公司做炒股这件事情,虽然有很多随机性,但是开了一个好头,让大家在人类的真实世界中看AI做的好还是不好。
做语言模型其实还要想一个问题,它能不能有眼睛看到这个世界,举个例子。我们刚才提到想做Coding Agent提升生产力,我总得让它操控电脑,看电脑屏幕,没有眼睛就看不到,所以我们毫不犹豫的去做,这是巨大的差异,Visual Understanding就去做可以了。
但是今天很多的模型比人看东西看的更明白,比如说我又近视又散光,基本上不太好使,看不明白。但是上下左右我总归分的很清楚,但是AI很有意思,很细节的东西它看很清楚。比如说问前后左右这个问题,居然分布出来。
我们很长时间评估一个案例,叫活体的方向,当时我还问我们的评测人员什么是活体,分不清楚东西在左边还是右边,我觉得蛮奇怪的,但是这是我们要解的问题。
但是不仅仅如此,我们还要做一件事情是让它的intelligence不要降低,我们没有期待它真的能够大幅度提高智商,但是至少不要变笨,因为很多时候做VL模型是变笨的,我们这一次终于让它不再变笨,大概和我们的235B的语言模型达到一个持平的状态。
这里讲一下我们这次主要的提升,简略的说一下。
第一个我们大家都在做一件事情,让它操作手机、操控电脑的能力进一步提升。
第二个是它的语言的治理,VL模型能不能当LRM来用,这样才可以追上原生多模态的模型,至少做到技术上让语言的智力能够达到持平状态。
第三个是Coding,这件事情很重要,但是Coding的输入也可以是图像或者是视频。
比如说今天我想做一个APP,想做一个网页,我可以画出来。不一定我用文字写,因为这个很考验人类的表达能力。很多时候大家表达的不一定很清楚,你可以画一个图。还有对视频的理解,也许是VL下一代的机会。
视频是更广义的表达,图片可以理解为是单帧的视频,理解很长的视频是很有意思的一个事情。
我一直在想如果我们有了智能眼镜,每天接收更多东西的时候,能不能构建我们的矩阵,这个眼镜是第一人称视角的东西,一般来说我们在网上搜罗的视频是第三人称视角,对第一人称视角理解很少,我们一般谈论的是它对这个物理世界能不能构建一些好的理解。
我们做的时候,就发现真的需要知道他是不是能理解这个空间的东西,这个东西激励我们做一件事情,我们能不能去做VLA,可能得把这些数据都集合进来,有没有可能接入硬件做VLA的模型,能不能让它获得一些泛化。
另外是基础能力的提升,比如说今天大家在使用OCR的时候,有很多东西的用力,都在检测一些很褶皱的东西。但是我们的的图像很多时候检测不到,纸张非常的褶皱,能不能让它看的懂都是我们自己要解的问题。
另外是印章,字体非常特别,非常的小,图片分辨率低,能不能识别出来是很特别的事情。Multimmod模型能不能做Reasoning,能不能对图片进行理解。比如说今天我们看到一个数学问题做分析,不断的一步一步去推,和图片结合起来看能不能看到图片上更小的点。
举个更小的例子,一张照片有50个人它能不能数的出来呢?数不出来,但是配上Reasoning我就可以一点点的去看,一点点的去打这个点,有可能我能把这个数字给数出来。今天结合具体的应用,能做的空间其实非常多。
我们现在基本上可以达到2.5pro的水平,但是让我开心的是语言的智力没有那么降智了,也算是第一次解决了这个问题。
更进一步我们想做什么呢?除了理解图像和视频以外,有没有可能同时生成图像和视频?我们甚至有一个更大的想象,如果我们今天在思考有没有可能把我们的基础模型实现想象这些事情。
我脑海里有一些画面,这个想象对我来说是有意义的,这些事情都可以通过图像生成和视频生成进行相应的实现,这个也会和今年的视界模型联系在一起。
今年我们刚开始做生成的事情,花了几个月时间做了Qwen-lmage系列,12月份刚刚更新了一个。
这是我们内部人员进行盲测,排名还是可以,基本上比最好的开源模型和闭源模型,比相交还是稍微差一点点。但是我看到一些实际的图的时候,我其实比较兴奋。
比如说和其他模型比较没有什么感觉,但是可以看一下8月份和12月份的版本,8月份生成的图AI感还是非常重的,但是12月份生成了已经接近离谱了,虽然没有那么美和好看,但是已经接近真人了。
其实还有一张我们博客里面宿舍女生拍照,真的很像宿舍女生刚睡醒拍照,放在这里不是很好,我放了更好看一点的。还有更自然的东西,比如说灯塔,水花特别夸张,但是右面的水可以达到非常自然的状态。
另外一个是生成图像文字要很准确,能够把文字生成到图片上面来。分镜不是拼出来的,其实是12张图合起来的一张图,包括文字都是一次性生成出来,今天模型有一些威力超出了我们的现象,有时候我们自己训练模型都没有想到会变的这么强。
但是除了生成以外的话,我们还要做更重要的事情。我们做了生成之后,用户告诉我们才知道编辑是更大的需求,因为大家都需要P图,让自己变得更好看。
Image-edit版本也有,接下来会把edit生成合在一起,我自己每天用这个东西,最近出去旅游的时候,我想拍出美国往事的感觉,下面有很多人,我就把很多人P掉,调整一下风格,就可以把这个东西做出来,这是每天干的事情。
我想给大家分享一个更有意思的案例,也是今天大家会问我,开源社区究竟怎么帮助我们研发这个模型,如果不是开源社区告诉我们,这辈子都想不到有这个问题。
有一张图片我们想对它进行编辑,让它放下图像中右边的人,你会发现它放下来之后,两张图重叠在一起的时候你会发现糊了,它有点移动了,不在原位,偏移了。
对于很多搞PS的同学来说,这个东西要非常精确,你不能随便移动,所以2511这个版本很重点的是在解这个问题。在2511这个版本,我把两张合在一起的时候,基本上人在原来的位置上,我觉得是开发者给我们很好的用力,原来可以做出真的可以帮助到他们东西。
编辑可以做很多事情,比如说我调整光线让它变成更柔和的光鲜。我们的用户和产品跟我们说这个光射合理不合理是很重要的,我们做算法的同学很多时候感受,但是有些时候大家对图的要求比想象的更高。
所以,大家谈世界模型的时候,是不是真的能构建出符合物理规律或者真实世界的东西其实还是很重要的东西。
还有一些例子,比如若平移一些镜头,旋转30度这些都是很常见东西,今天这个模型甚至可以和推理结合在一起,我们一直有一件事情非常想做,教小朋友家长们很痛苦,很多时候AI去教有一些题教不了,画辅助线的东西是教不了的,真的需要生成模型才能做,我真的能够把一道数学题做好,比如说画辅助线这件事情我可能要通过生成推动更好的理解。
接下来是更进一步的,如果今天看的图像的问题解的差不多了,甚至自己可以把东西生成出来,有没有让它像人一样听和说呢?因为语音交互也是很重要的事情。今天大家在使用各类的APP的时候,大家发现有语音交互真的是很方便的一件事情。
Omni也是很大的智能,并且我愿意相信一些事情,今天对事件的环境音理解,人讲的话不是单纯的使用ASR就可以解决的。
所以我们就做一个Talker的东西,这个模型做了很久,让它既能听又能说,能够保证它的效果是稳定的。Omni是沿着这个方向持续做的,大概的进展稍微有一点降智,但是降智的已经不多。
我们这个模型可以达到2.5文本的水平,对于语音基本可以对标2.5por的水平,这里面有挺多好玩的东西,时间关系没有办法和大家分享。
今天TDS可以换各种声音,包括自己定制你自己的声音,只要描述这个声音长的什么样子,就可以让AI以这个形式把东西讲出来,我觉得还有很好玩的事情,基础模型和基础Agent是不是真的可以跟人类的真实世界,也包括虚拟世界进行更好的交互。
下一步要做什么样的事情呢?我们做了这么多,当然希望集合在一起,全模态模型是要做的。
有一个很重要的,我觉得也是殊途同归的事情,跟kimi文化做类似的事情。我们同时做各种各样的实验的时候,最后选择了用Linear Context,当然也是以三层Linear配合它的。
下一代的模型也会沿着新的架构进行相应的实现,其实我们这里想做的事情是新一代的架构能不能解决我们刚才到的问题,能够省下很多步骤。也许还会有更多的威力在里面。下一代的模型,其实也会沿着新的架构进行相应的实现。
更进一步我们要做什么东西呢?Omni的模型不仅仅是我能够理解文本、视觉、音频,我们可能还让它生成文本、音频,今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得会是至少我个人喜欢的东西。
第二个是今天的范式发生了一个很大的变化,今天不是像以前那样训模型,有标注的数据,有一条输入和输出训练就可以,我们今天要把更多的数据放到实验中去训练。
如果大家关注XAI的宣传,RL的数据我虽然觉得他们有点浪费,但是另一方面也意味着RL有很多的想象空间。当然并不是说自己跟自己对话,我其实没有那么关心我们的模型能不能做成为最强的数学大脑,我更关心的是像日常真实的人,为这个社会做贡献。如果它能够做到这一点,我觉得还挺好。
所以Multi-turn RL with environment feedback towards long-horizon reasoning,因为很多时候做很多事情需要很长的时间,你得一步步去做。
但是AI可以加速很多,比如说人类花两个月的时间做的东西,AI可以花两天的时间。虽然有很多Token在里面,但是两天确实能够节省我们很多的时间在这里面。
Agent其实可以走向虚拟世界和物理世界,所以有了Embodied Reasoning的这种方式。我们内部讨论了一个方式,就算你是做VLA,做Coding的模型,说白了也是把语言转化成Embodied的模型,从这个角度上来看就非常的振奋人心。
于是我们就觉得大干一长,看一看能不能走向Digital Agent,GUI操作,同时能够使用API,这个就是非常完美的Digital Agent。如果走向物理世界,是不是能够把话筒拿起来,能够斟茶倒水。
圆桌对谈
本次峰会最精彩的,当属圆桌环节。
开场就很drama,本应有四位嘉宾,台上却只有三位。
正在疑惑,姚顺雨突然大脸跳屏:我现在是不是一张大脸在屏幕上?
全场都愣了一下,随后便是哄堂大笑。
主持人也正好趁这个机会,直接从姚顺雨开始,切入了正题。
Q1:路线分化
主持人:我是接下来Panel的主持人广密。
可以从分化这个主题先聊起来,硅谷的竞争那么激烈,它没有完全Follow,全都做,而且是专注到了企业,专注到了Coding,专注到了Agent。
我也在想接下来中国的模型会分化成自己想要的哪些方向?我觉得分化这个主题蛮有意思的。
顺雨开场给大家讲一讲,顺便说说你最近在干什么。
姚顺雨:大家好,我现在是不是一个巨大的脸在会场?不好意思,今天没法亲自来北京,但是很高兴参加这个活动。最近忙着做模型、做产品、做AI,是一个很正常的状态。回国的感觉还是挺好的,吃得好很多。
我觉得有两个大的感受,一个感受是toC和toB发生了明显的分化,另外一个感受是垂直整合这条路,以及模型和应用分层这条路,也开始出现了分化。
我先说第一点,我觉得很明显的是当大家想到AI就是两个,ChatGPT,另外一个Claude code,是做toC和toB的。
非常有意思的一点是我们今天用ChatGPT和去年相比的话,感受差别不是太大。
但是,Coding夸张一点来讲,已经在重塑整个计算机行业做事的方式,人已经不再写代码,而是用英语和电脑去交流。
我觉得很核心的一点,对于toC来说,大部分人大部分时候不需要用到这么强的智能,可能今天用ChatGPT和去年相比,写成交代数和伽罗瓦理论的能力变强的,但是大部分人大部分时候感受不到。
大部分人尤其是在中国更多像是搜索引擎的加强版,很多时候也不知道该怎么去用,把它的智能给激发出来。
但对于toB来说,很明显的一点是智能越高,代表生产力越高,值钱的也越来越多,这些东西都是相关的。
对于toB来讲,还有一个很明显的点,大部分时候很多人就愿意用最强的模型,一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月。
很多美国的人愿意花溢价用最好的模型,可能他的年薪是20万美元,每天要做10个任务,像一个非常强的模型可能10个任务中,八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。
我觉得无论是人还是模型,在toB这个市场上发现了一个很有意思的现象,强的模型和稍微差点,或者弱的模型它的分化会越来越明显。
第二点观察,垂直整合这条路和模型应用分层这条路的区别,我觉得一个比较好的例子,比如ChatGPT Agent,相比于用Claude或者Gemini加上Manus这样的应用层产品,过去大家会认为当你有垂直整合能力肯定会做的更好,但起码今天来看并不一定。
首先模型层和应用层需要的能力还是挺不一样的,尤其是对于toB或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做,但是想要把这么一个特别好的模型用好,或者这样的模型有它的溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。
我们会发现其实在toC的应用上垂直整合还是成立的,无论是ChatGPT还是豆包,模型和产品是非常强耦合去紧密迭代的,但是对于toB来说这个趋势似乎是相反的,模型在变的越来越强、越来越好,但同样会有很多应用层的东西应用好的模型在不同的生产力环节。
腾讯肯定还是toC基因更强的公司,我觉得我们会思考怎么样能够让今天的大模型或者说AI的发展能够给用户提供更多价值,很核心的思考是我们发现很多时候我们的环境来讲或者更强的模型,或者很强的模型,很多时候是额外的Context。
我最近经常举一个例子,比如我想问我今天该去吃什么?其实你今天问ChatGPT和你去年问或者明天问都会差很多。
这个事情想要变好,不是说你需要更大的模型、更强的预训练、更强的强化学习、更强的Agent环境或者更强的搜索引擎,这个问题可能需要更多额外的输入,或者我们叫Context。
toB确实是很难的事情,生产力的革命,包括我们今天很多中国的公司做Coding Agent需要打很多海外市场。
我们会思考怎么把自己先服务好,像创业公司做Coding这个事情和大公司做Coding这个事情,一个区别是作为大公司本身就已经有各种各样的应用场景、各种各样需要生产力变得更好的地方。
如果我们的模型能够在这个地方做的更好,不仅这个模型会有自己独特的优势,不仅我们公司本身能得到很好的发展,很重要的一点是对于真实世界场景的数据捕捉会是一个很有意思的事情。
比如说Cloud,这些创业公司,他们想要去做更多的Coding Agent的数据厂商去标注这个数据,他们需要利用各种各样的软件工程师去想我要去标什么样的数据。
这个事情是数据公司一共就这么几家,一共有招了这么多人,最终你会受限,但如果你是一个10万人的公司可能会有一些有意思的尝试,怎么把真实世界的数据利用好,而不是仅仅依赖于标注商或者协议。
林俊旸:今天toB也好,toC也好,我们在服务真实的问题,我们想的问题是怎么把人类世界变的更好。你就算做toC的产品也会分化,今天OpenAI更像一个平台了,但是toC最终要服务真实的这批用户究竟是谁。
今天可能有很多AI会更偏向medical和log,今天我觉得Coding真的很厉害,我就拜访它,因为我知道他们跟客户交流非常多,这个是我们还不够好的一个点,虽然我们拥有巨大的优势,也可能中国SaaS市场跟美国确实不太一样,他们确实非常频繁地跟客户进行交流,很容易发现很大的机会。
今天我跟美国的很多API厂商聊起来,他们没有想Coding消耗量那么大,在中国真的没有那么大,至少从我这边来看,但是在美国,基本上全都是Coding,我觉得这个事情不是所有人都能Get到的。
今天做的一些相关的一些东西,我觉得也是他们自己在跟客户看到这个机会,我觉得可能大家的分化是自然的分化,我更愿意相信AGI,做AGI该做的事情,顺其自然,这是我们该做的事情。
杨强:分化的问题其实我更想聊一下工业界和学术界的分化,这个可能是横跨美国和中国的。
一直以来,学术界是一个观望者,工业界在领头往前疯跑,搞得很多学术界的人也在做工业界的事情,像唐杰老师,这是一个好事,就好像天体物理学刚刚开始的时候是以观测为主,伽利略的望远镜,然后才出现牛顿。
所以我觉得后面一个阶段,当我们有了众多的稳定大模型,进入一个稳态的时候,我们学术界应该跟上来。
学术界跟上来要解决什么问题呢?工业界可能还没来得及解决的一些问题,这也是我一直在考虑的问题,就是说智能上界在哪里,比如说给你一定的资源,计算资源或者能源资源,你能做到多好?
可以更细一点,比方说我们把这个资源怎么分配,哪些分配在训练上、哪些分配在推理上?其实我很早就在做AI,90年代初就做过一个小实验,如果我们有一定的投入在记忆上,那么这个记忆能够帮助推理多少,这个帮助会不会变成一个反向的,就是说你记的太多了,反而记的噪音会干扰你的推理,有没有一个平衡点,我觉得这些问题今天还是适用的。
我最近也在想另外一个问题,大家学计算机的都必定上计算机理论课,里面有一个重要的定理叫哥德尔不完备定理,大概意思是说一个大模型不能自证清白,必定有一些幻觉不可能消灭掉,可能你给更多的资源,它会消灭的更多。
所以科学问题就来了,你多少资源能够换取多少幻觉的降低或者错误率的降低,这是有一个平衡点的,这个平衡点特别像经济学,经济学的风险和收益的一种平衡,所以我们叫这叫无免费午餐定理。像这些东西,我觉得今天就特别适合数学界、算法界和学术界和工业界一起做研究,这孕育着一个巨大的突破。
刚才唐杰老师也提到持续学习,我觉得持续学习是一个特别好的问题,它里面有个时间的概念,你在持续地不断地学的过程当中。
但是你会发现,比方说你把不同的Agent给串联起来,每一个Agent都不能做到百分之百的话,你在N个以后它的能力是按指数下降的,你怎么样能够保证它不下降,人类是用一个方法做这个事,第一天是学习,第二天会在第一天噪音的基础上学习,这样你的能力就类似大模型会下降。
但是人类有一个方法就是睡觉、睡眠,我建议大家看一本书叫《我们为什么睡觉》,是MIT的两个教授写的,非常好玩,它说每天晚上睡觉是在清理噪音,使得第二天你可以把准确率持续地提升,不至于是两个策略率的叠加。
像这些理论的研究孕育着一种新的计算模式。我们今天可能比较关注Transformer computer,但是我觉得有必要做一些新的探索,这是工业界和学术界要拉齐。
唐杰:早期的时候还是基座模型,2023年那个时候我们第一个做出Chat的,当时第一个想法是赶紧把Chat扔在网上上线,当时国家有规定,八九月份一起上。
当时我的第一感受是十来个大模型都上来了,而且每一家用户都没有那么多,当然今天分化的非常严重。
后来我经过一年的思考,我觉得其实这个已经不是真的解决问题,我的第一个预判是说它会替代搜索。
我相信今天很多人在用这个模型替代搜索,到今天我相信大家很多人在开始用这个模型替代索索,但是并没有替代谷歌,谷歌反而把自己的搜索革命了,谷歌自己做了搜索的改进。
从这个角度上,我觉得这一仗从DeepSeek出来之后,已经没有了,已经结束了。
DeepSeek之后我们应该想的是下一仗是什么东西?
我们团队争论了很久,下一仗肯定要让AI做一件事情,做这件事情是什么可以讨论一下,那个时候广密还到我们那跟我们交流,广密的知识特别渊博,他思考问题很深邃。和他的交流对我的启发非常大,原来我没有想到,那一次让我启发非常大。
后来我们团队争论了很多晚上,争论到最后,可以叫我们的运气,另一方面我们也是把所有的精力放在了Coding上。
Q2:自主学习
主持人:接下来第二个比较有意思的问题,今天这个时间点特别特殊,一个是预训练过去走了3年,大家都说可能今天走到了七八成的收益,强化学习也都成为共识,做到了四五十的空间,后面的数据、环境空间很大。
接下来一个新的范式,唐老师也谈到了自主学习、自我学习,因为今天这个会的主题是接下来的展望Next,我觉得这是一个特别值得去聊的话题。
姚顺雨:现在自主学习是一个非常热门的词,在硅谷大街小巷咖啡馆里面,大家都在谈论,形成了一个共识。根据我的观察,每个人对这个东西的定义和看法都不一样,我讲两点:
第一,这个事情不是方法论,而是数据或者任务。
当我们在谈论自主学习的时候,它到底在什么样的场景下基于什么样的奖励函数去做。
你在聊天的时候变的越来越个性化是一种自主学习,在写代码的时候越来越熟悉每个公司独特的环境或者文档是一种自主学习,你去探索新的科学,在这个过程中像一个博士一样,从原来不了解有机化学是什么,到完成这个领域的专家,这也是一种自主学习。每一种自主学习的挑战或者说方法论都不太一样。
第二,ChatGPT在利用用户的数据不断弥合人聊天的风格是什么,这是不是一种自我学习?
今天Claude已经写了Claude这个项目95%的代码,它在帮助它自己变得更好,这是不是一种自我学习?
我们当时2022年、2023年的时候,我去硅谷宣传这个工作,我当时写了第一页是说ASI最重要的点是自主学习。今天的AI系统本质上都有两部分,首先它是一个模型,其次它有个代码库,你怎么去用这个模型,是用来做推理,还是做Agent,有相应的代码库,我们今天看Claude这个系统本质上有两部分。
一部分是是部署环境的一大堆相应的代码,KeonGPU的环境是怎样的。
另一部分是怎么样去使用它,有一大堆相应的代码,无论是GPU的,或者说它的前端还是环境是什么样的。
我们做Switch方面大家意识不到,这些自主学习的例子可能还局限在每一个特定的场景下,没有让人感觉到非常大的威力。
这个事情已经在发生了,可能效率或者受限制的限制,有各种各样的问题,可能这个事情我个人的看法它更像是一个渐变。
很多人说2026年看到信号,我觉得2025年就看到信号了。
Cursor每几个小时都会用最新的用户数据去进行学习,包括新的模型,也在使用这些真实环境下的数据去训练,大家觉得这个东西可能还没有特别石破天惊,是因为受限于他们没有预训练能力,他们模型效果确实还不如Opens,显然这是一个信号。
最大的问题是想象力,我们很容易想象强化学习或者推理这个范式,如果实现大概是什么样,我们可以想象O1,在数学题上本来是10分,现在变成了80分,通过这个强化学习有非常强的思维链做这个事情。
如果2026年或者2027年我们有一个范式的发生,我宣布了一个新的模型或者新的系统实现了自我学习,我们应该用什么样的任务,它应该是什么样的效果,你会相信它实现了。
它是一个赚钱的交易系统,它可以赚很多钱,它真的解决了人类之前没法解决的科学问题还是别的。我觉得可能需要先想象到它长什么样。
林俊旸:如果从更实际一点来讲的话,刚才讲的这个范式在比较早期阶段,RL这个事情,实际上我们还没有做的那么充分,很多潜力没有打出来。
今天我们也看到很多问题在这里面发生,我觉得全球范围内类似的问题还存在。
如果要说下一代范式的话,一个自主学习,之前跟一个朋友聊到说人类不能让AI变的更厉害,比如说你跟AI不断地交互,只会让它上下文变的越来越长,AI变的越来越笨,这是很烦人的事情。
这件事情是不是真的能够发生?这还是挺值得思考的,你能吐更多Token让你变得更强,就像我真的干30个小时真的能够干出很难的任务,今天大家做超越的事情很难,有没有可能通过Coding去实现。
从这...
热门跟贴