智东西作者 骏达 江宇编辑 漠影
打开网易新闻 查看精彩图片
智东西作者 骏达 江宇编辑 漠影

智东西1月10日报道,今天,清华大学基础模型北京市重点实验室发起的“AGI-Next”峰会上,多位国内头部开源AI实验室的技术掌舵人罕见同场亮相。智谱创始人兼首席科学家唐杰、月之暗面创始人兼CEO杨植麟、阿里千问大模型技术负责人林俊旸和腾讯总裁办公室首席AI科学家姚顺雨等人,就AGI路径、Scaling极限、Agent落地与中国AI的长期机会等热点话题,进行观点的交流和碰撞。

打开网易新闻 查看精彩图片

这场会议长达三个半小时,充满学术氛围:没有主持人串场,没有冗长的嘉宾介绍,也没什么场面话,这是唐杰在办会时有意而为之的。几位嘉宾的观点都十分坦诚,听完之后,我们总结出了以下8个核心观点:

1、唐杰:Scaling(模型扩展)仍是有效路径,但可能是“人类最轻松的偷懒方式”。真正值得探索的是让模型具备自主Scaling能力。

2、唐杰:DeepSeek出来之后,Chat范式的竞争就基本结束了。

3、杨植麟:Scaling Law本质是把能源转化为智能,核心在于高效逼近智能上限。

4、杨植麟:模型承载的是价值观与品味,Scaling是技术、数据与审美的共进,探索前沿智能不会因潜在风险而停止。

5、林俊旸:Manus确实很成功,但套壳是不是未来,这本身也是个话题。

6、林俊旸:未来3-5年内中国团队做到全球领先的概率,在大概20%,这已经是非常乐观的估计。

7、姚顺雨:垂直整合与模型应用分层两种模式在分化,模型公司做应用不一定更好。

8、张钹:当前大模型存在指称、因果等五大根本缺失。他强调AGI应有“可执行、可检验”的定义,核心是具备多模态理解、在线学习、可验证推理等五项能力。

一、智谱创始人唐杰:让机器像人一样思考,AGI仍然需要新的模型架构与学习范式

清华大学教授、智谱创始人唐杰围绕“让机器像人一样思考”这一长期目标,系统梳理了他对AGI路径的判断。

打开网易新闻 查看精彩图片

1月8日智谱上市当天,唐杰曾在内部信中提到,“直到今天,包括智谱在内,没有人能够给出准确的AGI定义以及如何实现AGI的技术路径,也许这正是探索AGI的魅力所在。

基于这一判断,唐杰在本次演讲中系统性回溯了近年来基座模型智能化水平的演进,并结合中美开源模型的发展趋势,对当前大模型所处阶段及其面临的关键分岔进行了分析。

打开网易新闻 查看精彩图片

▲基座模型在典型AI基准测试上的能力演进

他回顾了2025年,谈及智谱已在语言、视觉、多模态智能体等方向开源GLM系列模型,助推中国模型首次集体霸榜开源榜单前五。

尽管如此,唐杰也坦言“我们的差距可能还在拉大”,美国闭源模型仍是不可忽视的对手。

唐杰称,“我们是在开源上面玩了让自己感到高兴的,而差距并没有像我们想象得那样好像在缩小。有些地方,我们可能做的还不错,但我们还要承认自己面临的一些挑战和差距。”

那下一步AGI该如何推进,在他看来,需要回到对人类认知学习过程的理解。他认为,面向未来,大模型仍缺失多项关键能力,而这些能力在人类身上远远超过大模型。

打开网易新闻 查看精彩图片

唐杰谈及,“2025年可能是多模态的适应年。可能全球除了少量的几个模型,一下子吸引了很多人,包括智谱在内的很多的多模态模型都没有引起关注。”

他将原生多模态能力类比为人类的“感统”能力,认为这正是模型下一步需要补齐的能力。

其次,唐杰强调,大模型在记忆和持续学习能力上仍然存在明显短板。如何构建从个体记忆到人类整体的“第四级记忆系统”,是未来需要为大模型补齐的基础设施。

在更高层面,唐杰将反思与自我认知视为极具挑战、但值得探索的方向。

他将这一判断放入“人类认知框架”中进行解释,“人类认知是双系统,系统1和系统2。系统1完成了95%的任务……只有更复杂的推理问题……这时候就变成系统2了。”他认为,大模型同样需要构建系统1、系统2以及自学习机制的协同。

打开网易新闻 查看精彩图片

系统一依赖大规模数据和参数的Scaling,系统二则依赖推理、指令微调与思维链,而自学习机制则对应人类在无意识状态下的持续学习能力。

但唐杰也明确提到,单纯依靠数据和参数规模的Scaling已逐渐显露瓶颈,“我们能不能找到更好的知识压缩的方法,把知识压缩到更小的空间里面,这是一个新的问题。”

他认为,Scaling仍然重要,但必须寻找新的路径,“Scaling是一个很好的办法,但Scaling可能是最轻松的办法,是我们人类偷懒的一个办法。”真正值得探索的,是让模型具备自主Scaling能力。

而面向真实世界,唐杰认为大模型还必须具备完成超长任务的能力。

最后,唐杰从计算机本体能力出发,给出了总结:“在我看来计算机有三个能力:第一,计算机的表示和计算;第二,编程;第三,本质上是搜索。”他认为,正是这三种能力的叠加,使计算机具备了走向“超级智能”的潜力。

在对2026年的判断中,唐杰也给出了较为清晰的技术聚焦方向。他直言,“2026年对我来说更重要的是要专注和做一些比较新的东西。”

打开网易新闻 查看精彩图片

在他看来,Scaling仍将继续,但重点正在发生变化,“已知的是我们不断加数据、不断探索上限。还有Scaling未知,就是我们不知道的新的范式是什么。

围绕这一未知范式,唐杰强调模型架构层面的创新将成为关键,解决超长上下文,还有更高效的知识压缩问题,并会实现知识记忆和持续学习。

与此同时,多模态感统被他视为2026年的重点方向之一。只有具备这一能力,AI才能真正进入长任务、长时效的工作环境,AI才能实现具身,才能进入物理世界。

在应用层面,唐杰也对AI for Science寄予厚望,“我相信今年可能是AI for Science的一个爆发年,因为很多能力大大提升,我们可以做更多的事情。”

二、月之暗面杨植麟:Scaling不止堆算力,下一代模型技术、数据与“品味”会共同进化

月之暗面创始人兼CEO杨植麟认为,自2019年以来,大模型始终遵循同一条第一性原理——Scaling Law,本质是“把能源转化成智能”。在数据与算力受限的背景下,如何用更少投入获得更高智能,成为核心命题。

打开网易新闻 查看精彩图片

杨植麟强调,Transformer之所以成为主流架构,关键在于其更优的Scaling表现。

尤其在长上下文场景中,Transformer相较传统架构展现出明显优势,而这正是Agent时代的基础能力。复杂任务必须依赖超长Context,模型的Position Loss越低,Agent潜力就越大。

围绕这一判断,Kimi的预训练策略聚焦两条主线:Token效率与长上下文能力。

打开网易新闻 查看精彩图片

在token效率层面,团队提出了改进的Muon优化器Moonlight Muon,实现约2倍Token效率提升,并通过QK-Clip解决Logits爆炸问题,支撑万亿参数模型稳定训练。

在长上下文方向,Kimi-Linear与全新的线性注意力机制,在保证效果的同时大幅提升推理速度,为超长Context任务提供现实路径。

杨植麟认为,更强的模型先验可以显著缩小搜索空间,使AGI“更早发生”。

他同时提出,模型并非普通工具,而是在塑造一种世界观。他称,智能是一个Non-Fungible Token(非同质化通证),它承载着品味、审美与价值观。Scaling不只是堆算力,更是技术、数据与“品味”的综合进化。这正是下一代模型K3要做的事情——新架构、更大规模合成数据、品味提升等等。

打开网易新闻 查看精彩图片

他借用Kimi与他讨论时的话总结道:我们不应因风险而停滞,放弃探索,就等于放弃人类文明的上限

三、阿里林俊旸:从语言模型到具身智能,千问为何走向Generalist Agent

“原来叫Towards a Generalist Model,后来我改成了Generalist Agent。”林俊旸在演讲开场解释了PPT标题的变化。

打开网易新闻 查看精彩图片

他认为,相比模型本身,Agent是一个更大的概念,像人一样能够自主使用工具,在环境中完成任务,这是他理解中AI应该走的方向。

林俊旸称,今天的大模型训练方式已不同于以往。“以前训练模型就是配对输入输出、加上人工标注,这就是传统的做法。”但在今天,“只要解决了推理,解决了评估,这个东西就可以扩展,很多事情都能做,我也可以发挥更多想象力。”

他坦言,“这也是我一个做语言模型的人,最近敢斗胆扬言‘我要做VLA和机器人’的一个小小原因。”

在讲述通义千问技术团队的下一步方向时,林俊旸概括了三项重点:

第一,是构建具备视觉输出与推理能力的Omni模型,把能力真正收敛到多模态模型中,不只是能接收文本、图像、语音,也要具备同时生成这些模态的能力。

第二,是从“训练模型”转向“训练Agent”,特别是通过“多轮强化学习和环境反馈”,实现面向长时任务的推理能力(long-horizon reasoning)。

第三,是把语言模型进一步转化为具备行动能力的Embodied模型。

打开网易新闻 查看精彩图片

他认为,从这个角度出发,模型才有可能真正走向Digital Agent,能够进行GUI操作、调用API,形成完整的执行闭环,“如果再往物理世界走,能不能拿起话筒、斟茶倒水,这也是我们很想去做的事情。”

四、模型分化,范式未定:中国AI的领先之路与关键瓶颈

圆桌论坛中,唐杰、林俊旸、姚顺雨以及加拿大皇家学院院士、香港科技大学荣休教授杨强四人展开观点交流与碰撞,他们主要聊了四大问题:模型的分化、AI研究的范式转变、Agent的未来和中国在全球AI竞争中的位置。

(1)模型正在明显分化:做Coding、做Chat、做全模态,背后的逻辑是什么?

姚顺宇称,自己有两大感受。一是To-C和To-B明显发生分化。如今,行业里顶尖的To-C产品以ChatGPT为代表,Claude Code则在B端有优势,但ChatGPT的变化对用户来说没有很可感,反倒是Coding革命重塑了计算机行业的行事逻辑。

在To-C领域,模型并不需要极高的智能上限,很多场景更像是“增强版搜索引擎”。真正的瓶颈不在模型本身,而在于如何为模型提供足够的Context和环境信息。

在To-B场景中,逻辑完全不同。海外企业客户对最强模型的付费意愿更高,在国内做To-B的难度有点大,腾讯的思路是先把自己服务好,让模型在公司内部发挥价值。

姚顺宇观察到的另一大分化是垂直整合与模型、应用的分层。他称自己的老东家OpenAI在Agent应用上,做得并不一定会比应用公司更好。这是由于模型能力与应用能力并不完全一致。

在To-C产品中,模型与产品强耦合、快速迭代,垂直整合是成立的;但在更复杂的To-B或Agent场景,模型变强只是起点,真正落地还需要大量工程与环境建设。

林俊旸从千问的角度谈道,“分化并非选择,而是自然发生”。OpenAI做的更像一个To-C平台型产品,Anthropic与企业沟通更深,明显偏B端。他还提到一个现象,中美在Coding Token的消耗量上存在巨大差距,这种差距往往被低估,这困难反映了两个市场的区别。

打开网易新闻 查看精彩图片

杨强则从学术界和工业界的分化切入,他认为在行业进入稳态后,学术界可以开始解决工业界还没来得及解决的问题,有必要做新的探索,拉齐差距。

主持人提到,智谱某种程度上走了Anthropic的道路,无论是Agent研究,还是Coding。不过,唐杰认为,最本质问题还是提高基础模型的智能上限。

他举了一个例子,在大模型刚刚兴起时,国内企业争相研发,但最终发布后,业内10来个大模型的用户其实不多,如今才逐渐分化,原因是这些模型并没有真正解决问题。

他认为,DeepSeek出来之后,Chat领域的竞争就基本结束了。智谱经过内部讨论决定押注编程,倾注了所有的精力。

(2)AI领域下一个范式转变是什么,从哪儿来?

姚顺雨认为,ASI最重要的能力之一是自主学习。但目前的瓶颈不在方法论,而在于数据与任务设计。ChatGPT通过用户数据拟合人类聊天风格,本质就是一种自主学习;Claude Code里95%的代码就是由Claude Code自身撰写的,这也是自主学习。目前外界对模型能力的感知不明显,只是因为其受限于场景,并且处于渐变的发展过程中。

林俊旸认为,目前,强化学习的算力远未充分Scale,Test-Time Scaling与AI Scientist方向都有巨大潜力。未来,模型的个性化、记忆的进步,都可能会给人们带来能力出现巨大飞跃的“感受”。但是从业内视角来看,技术发展没有很快,做的工作也较为基础。

杨强提出,联邦学习与去中心化协作,是解决隐私、资源不均和大模型协同的重要路径。

打开网易新闻 查看精彩图片

唐杰则从一个更为基础的角度分析这一问题——范式转变究竟源自于什么地方?他认为,去年和前年,工业界快于学术界是一个事实,许多研究者根本没有算力。但到现在,很多学校已经有了算力,学术界可以开始做大模型研究、探索模型架构,不再是由工业界主导的状态。学术界有创新的基因,会孵化出种子了。

他补充道,创新的动因是现有范式收益效率的下降。继续Scaling是“最笨的办法”,典型的工程做法,而未来探索智能效率也是一大方向。唐杰比较乐观,认为2026年肯定会有范式转变的发生。

(3)2026年,Agent怎么做?

姚顺雨观察到,Agent赛道同样出现了B端和C端产品的分化。To B方向已经进入持续上升通道,且短期内看不到放缓迹象。它并不依赖花哨的创新,而是通过不断扩大预训练规模、扎实做好后训练,把真实世界任务吃透,模型就会自然变得更聪明,并直接转化为更高的生产力和商业价值。

在To B场景下,模型智能、任务覆盖和收益之间高度正相关,目标极其一致。相比之下,To C中模型能力与DAU等产品指标往往弱相关甚至负相关,反而更难聚焦。

当前To B的生产力型Agent仍处早期阶段,下一步关键在于环境与部署,而非模型本身。即使模型停止进化,仅靠大规模落地部署,也可能带来10–100倍效率提升,对GDP产生显著影响。

林俊旸认为,Agent的发展本质上是一个产品哲学问题。他直言:“Manus确实很成功,套壳是不是未来,这本身也是个话题”。

他更认同“模型即产品”的方向。未来的Agent不应只是外部应用,而是模型本身直接承担产品能力,研究人员也需要像产品经理一样,把研究成果做成真实世界可用的系统。

随着主动学习的发展,Agent将具备长时间托管式工作的能力,在执行通用任务的过程中自行进化、决定行动路径,这对模型能力上限提出了极高要求,也意味着做基础模型本身就是在做产品。

进一步来看,Agent的潜力还取决于其与环境的交互深度,目前主要停留在数字环境中,未来若能进入真实物理世界、结合机器人与实验系统,才可能真正承担长周期、高价值任务。

关于通用Agent的机会归属,林俊旸认为取决于是否能解决长尾问题:若创业者是“套壳高手”,在产品层面能做得比模型公司更好,那仍有机会;否则模型公司凭借算力、数据和强化学习,往往能更快覆盖这些问题。

杨强认为,Agent的核心分化在于“目标”和“规划”是否由AI自主完成。他指出,当前阶段“目标也是人定义的,规划也是由人来做的”,仍然非常初级。真正成熟的Agent,应当能够通过观察人类工作、充分利用数据,最终成为由大模型内生的原生系统。

唐杰则强调Agent能否成立取决于价值、成本和速度三点。首先,关键在于Agent本身有没有解决实际问题,否则很容易被简单的prompt或API替代。

其次是成本约束,如果成本特别大,也是一个问题。最后是时间窗口“如果能拉开半年的时间窗,迅速把应用做出来,才可能形成优势。

在他看来,大模型竞争已进入拼速度、拼时间的阶段,Agent等应用仍是方向,但成败取决于执行效率。

(4)3-5年后,中国团队成为全球最领先的AI团队的概率有多大,文化、关键条件还差在哪儿?

姚顺雨认为,中国在工程能力、产业化和人才密度上具备显著优势,一旦技术范式被验证,往往能以更高效率追赶甚至局部超越,未来领先的概率很大。目前的关键瓶颈在于算力、光刻机与软件生态,以及To B市场和国际商业环境。

同时,他强调中国真正需要突破的是能否引领“新范式”,这依赖更多敢于长期探索、容忍不确定性的研究文化,而非过度依赖榜单与短期确定性成果。

打开网易新闻 查看精彩图片

林俊旸相对谨慎,他认为中美在算力规模和研究资源投入上仍存在巨大差距,美国算力要多1-2个数量级。美国能将大量算力用于下一代前沿研究,而他称国内的交付工作就已经占据了很多算力。

但他也认为“穷则生变”,软硬件协同、模型与芯片共设计可能孕育新机会。他认为未来3-5年内中国团队全球领先的概率在大概20%,并且这已经是非常乐观的估计。

不过,他并不恐惧这种差距,而是建议业内保持冷静的心态,并回归初心,考虑模型能为人类社会带来什么价值。他称,就算自家模型不是最强的也能接受。

杨强从历史视角出发,认为中国在互联网与应用层曾实现快速追赶,AI作为通用技术同样具备潜力,尤其在To C领域百花齐放,To B也将通过工程化与知识迁移逐步成熟。

唐杰则指出代际变化带来的希望:90后、00后更具冒险精神,若营商环境与资源配置进一步改善、个人长期坚持,中国AI创新仍有现实机会。

五、清华大学张钹院士:AGI要有“可检验”的定义,大模型有五个根本缺失

听完前面几位嘉宾的分享,已经91岁的中国人工智能研究先行者、清华大学教授张钹院士临场做了一份PPT,回应了“从语言模型到AGI”的几个关键问题。

他认为,大模型虽然能生成流畅语言,但它基于的是近似的语义定义,本质上只是把词语周围出现频率最高的词,变成向量空间的几何结构。

打开网易新闻 查看精彩图片

而这种建模方式不可避免地带来五类缺失:指称缺失、因果缺失、语用缺失、多义和动态语境缺失,以及闭环行为缺失。这些缺失直接影响语言模型做应用的能力。

同样,面对“从语言模型走向Agent”的行业趋势,张钹院士还提出,应该抛弃模糊、不可执行的AGI定义,重新建立一种“可执行、可检验”的标准。

打开网易新闻 查看精彩图片

他认为,“大家都说AGI,因为AGI很有吸引力,这里有一个误导,大家以为做AGI都要做通用,其实AGI确实强调通用,但是跟我们目前想做的事不是一回事,但现在大家都这么用,我们也只好这么用。”

例如,马斯克说:“我们人类70%以上的任务,机器都会干,而且达到或者超过人类的水平”。这样的说法,既无法执行,也无法验证,容易造成误解。

“什么叫做达到人类水平?时变率超过人类,算不算达到人类的水平,有的人说算,有的人说根本不算,如果鲁棒性从其他方面来看差得远。”他反问道。

他认为应该有一个“可执行、可检验”的AGI定义,核心是五个能力:时空一致的多模态理解与落地、可控的在线学习与适应、可验证的推理与长期执行与规划、可校准的反思与元认知,以及跨任务的强泛化。他说,“按照这个定义,应该是可以指导我们往前做的。”

同时,张钹院士还提醒,真正需要治理的不是AI本身,而是“研究者和使用者”。他认为,“这里头,涉及到我们人工智能时代的企业、企业家应该担负什么责任。”

打开网易新闻 查看精彩图片

他称,过去并不鼓励学生创业,但现在认为“大模型改变了一切,最优秀的学生应该去搞企业”。

在他看来,AI时代的企业家不只是做产品服务,而是要把知识、伦理和技术变成可复用的工具,推动AI像水电一样服务全社会。他觉得这是一份“光荣而神圣的职业”。

结语:关于AGI的方向、形态与边界,仍在不断厘清

从“Scaling还够不够用”,到“Agent是不是只是套壳”,再到“通用智能能不能被可检验地定义”,这场AGI-Next峰会展现了当前中国AI技术领军者们对下一阶段智能路径的分歧与共识。

可以看到,在模型发展路线图上,有人继续押注更长上下文、更强推理、更稳训练的工程演进,也有人开始强调新架构、新记忆范式和Embodied模型。

在产品形态上,有人坚持“模型即产品”,也有人探索更强执行力与主动性的具身体系。而在AGI定义本身上,更有学界前辈呼吁回到“可执行、可验证”的概念,拒绝空泛与误导。

谁能在范式变动中明确方向,在落地节奏中建立真实优势,或将成为决定接下来几年AI格局的关键变量。