打开网易新闻 查看精彩图片

出品|虎嗅科技组

作者|苏子华

编辑|苗正卿

题图|AI生成

过去一段时间,“预训练终结”成为了 AI 领域最热烈的讨论之一。

OpenAI的GPT系列模型此前大踏步的前进,预训练是核心推动力。而前 OpenAI 首席科学家 Ilya Sutskever、预训练和scaling law(规模定律)最忠实的倡导者,却宣称预训练要终结了、scaling law要失效。由此,引发了大量争议。

与之相对应的,是GPT-5被曝研发受阻,已经比预期晚了6个月。似乎印证了Ilya的判断。

大模型公司的未来,是否因此都蒙上了阴影?在刘威看来,所谓的预训练终结对中国的大模型公司影响不大,还不必担心。而据他对Ilya的了解,Ilya的话不能只看表面意思。

刘威是前腾讯混元大模型技术负责人之一,腾讯杰出科学家,前不久刚刚低调开启AI领域的创业征程。

他于2016年加入腾讯AI Lab,与AI Lab另外两位负责人张潼、俞栋一起,被业内称为“AI Lab三剑客”。在2018年,刘威入选IEEE智能系统10大AI青年科学家;2022年,因对大规模机器学习和智能多媒体的贡献,获得IEEE Fellow。

在腾讯时期,刘威的工作主要是面向腾讯产品业务的CV基础大模型、多模态理解大模型、文生图、文生视频大模型等。

在刘威看来, Ilya此时这样讲,可能恰恰是因为他知道OpenAI内部遇到了一些技术瓶颈。即便如此,刘威认为,行业实际上依旧在跟随着OpenAI,它仍是引领者。

那么,该如何理解预训练终结的真正影响,如何正确看待OpenAI正遭遇的瓶颈、国内外大模型公司的处境,以及预判AI进化的下一阶段?

针对这些问题,刘威从科学家和AI创业者的视角,和我们聊了聊。

以下是对话实录,经编辑整理,为便于阅读,有所删减:

“预训练终结对中国大模型公司影响不大”

“预训练终结对中国大模型公司影响不大”

虎嗅:llya最近表示预训练将会终结,预训练模型需要的海量数据即将枯竭。你如何看待他的观点?

刘威:按照llya的说话风格,他一般不会把前面的定语、状语说得很明白。所以,“预训练终结”前面的定语和状语是什么呢?确切地说,是文本领域的大语言模型的预训练要终结了,数据枯竭、找不到高质量的文本token了。

他的目的是想让有识之士意识到:文本领域的预训练确实是终结了,呼唤新的训练范式与新的scaling law。

虎嗅:在这个时间点,他可能看到了什么?怎么理解背后的逻辑?

刘威:llya这样说,可能有3个原因。

第一,可能是OpenAI内部遇到了一些技术瓶颈。

按照华尔街日报的报道,这个技术瓶颈就是指训练GPT-5模型(OpenAI内部代号Orion)的时候,预训练的token不够用了,于是加入了合成的token,结果合成的token效果不佳甚至很差,差到可能让整个模型的训练失败。

OpenAI最开始投入大量的合成数据到预训练阶段,结果遇到了很大的挫折,这个挫折让OpenAI的GPT-5研发6个月没有大的进展。要理解其中的原因,我们得搞清楚预训练的作用。预训练实际上是在模拟特定domain的自然数据分布,譬如在文本domain,捕捉与模拟自然语言的分布是什么。所以OpenAI会从很多高质量的网站,譬如维基百科、纽约时报等去获取一些文本数据,这些数据都属于人创作的、真实的语言分布。

而合成数据和真实数据,在概率分布上“长”得非常不一样。举个例子,我之前在腾讯也做过人脸图像DeepFake检测,我们发现AI合成的假的人脸图像和真实的人脸图像在高频段的信息特征完全不一样,所以我们研发的人脸打假系统一下子就把假的人脸识别出来了。所以在预训练阶段,如果把真实token的自然分布和合成token的“假”分布混在一起,喂给模型训练,便可能会让模型训练崩溃或者达到一个“胡言乱语”的模型结果。

第二,我猜测,o1可能在GPT-5的预训练中起到了不小的作用,OpenAI可能用o1造了很多代码类、数学类、逻辑类的合成数据,训练GPT-5去学习。然而,合成数据最大的问题是多样性差。比如,用o1造大量的token,既然是一个模型造的,token的同质化不可避免,那便不具备多样性。而自然界的真实数据的优点之一就是多样性强,包罗万千。

所以,OpenAI的科学家与工程师们可能意识到了合成数据不能用太多,即便是用了合成数据,也要设法提升多样性,这样训练效果仍然可能有提升。基于这个目的,OpenAI去找高级程序员、非常资深的数学老师或者数学博士,来写数学题的不同解法,以及用不同的方法做编程题,然后使用这些人类的真实多样性token来训练一个更好的token生成器模型,以提升合成数据的多样性。

第三,以上措施带来的模型性能提升仍然不够显著。从GPT-3.5到GPT-4的提升是巨大的,从o1到o3的提升也是巨大的,然而从GPT-4到GPT-5,提升不大。

所以,可能基于以上三个方面,才促使llya说出这样的话。我们知道,GPT-3.5到GPT-4巨大的提升,正是来自于预训练scaling law。既然预训练scaling law到头了,就很难大踏步地提升下一代模型的综合性能了。

我赞同llya。在文本domain里,预训练确实到头了。但这并不是指模型算法出了问题,而是指训练数据(token)不够用了,跟不上model size的scaling up节奏。

虎嗅:也有很多大牛譬如Meta首席人工智能科学家Yann LeCun,说预训练没有到头。

刘威:很多时候大家是在你说你的,我说我的。Yann LeCun指的是多模态领域的scaling law没有到头。事实上,多模态领域的预训练怎么做,业界还在探索,还不完全清楚GPT-4o、Gemini-2.0是如何进行预训练的。

在多模态领域,开源社区的做法和闭源的做法也不一样。GPT-4o是三个模态(文字、图片、语音)的输入和输出,目前国产模型还没有实现对标GPT-4o的三模态理解与生成效果。市面上大部分号称有多模态能力的大模型,主要能力是多模态理解,欠缺优秀的多模态生成能力,比如优秀的语音生成能力(与 OpenAI 的高级语音模式Advanced Voice Mode相比,大多数语音生成产品在很多能力上仍显不足,包括情绪理解、灵敏的打断功能、丰富自然的语气语调、多语言支持、连续对话能力等)。

无论Google还是OpenAI,他们都还没有发表相关的论文。所以,大家不知道他们是怎么做的。Meta虽然发表了一些多模态大模型的论文,但他们发的论文和自己开源的Llama 3模型在多模态训练方法上又不太一样。所以多模态领域的预训练scaling law到底是什么样,大家还在探索。

虎嗅:那么文本领域的scaling law遭遇了瓶颈,会对中国的大模型公司有什么影响吗?

刘威:我认为影响不大。对于中国大模型公司来说,token远没有到用尽的时候。因为OpenAI的技术路线很激进,它的模型参数已经很庞大。行业内有一些传言,猜测GPT-5可能是10T以上的参数量,这是巨大的。除了OpenAI,应该没有几个机构在训练10T参数量级的模型。

而我们知道GPT-4只是1.6-1.7T的参数规模。也就是说,模型参数可以扩大,算力可以增加,但是真实的token量是有上限的。人类只有一个互联网,高质量文本token量大约不超过20T 。按照scaling law的经验公式:GPT系列模型预训练需要的token量与模型参数量,大约呈10倍的线性关系。那么,GPT-5如果是10T的参数规模,我们很难收集到100T 高质量token的数据。从这个角度讲,预训练确实到头了。

而以严格的标准来说,在多语种的文本domain里,中国还没有一家国产模型能够达到GPT-4的水准,还有相当的提升空间,所以国产模型厂家还不用担心scaling law到头了。

虎嗅:还有一种说法,数据危机可能会导致发力通用大模型的公司,转向更小、更专业的模型。

刘威:这个和预训练的终结没有直接关系。大家永远可以研发小模型,在“预训练终结”被提出之前,微软一直在做小模型,Meta、苹果也都在做端侧模型,包括国内的面壁智能也在做端侧小模型。

虎嗅:之前传闻有几家国内大模型独角兽放弃预训练了,似乎放弃预训练是个很负面的事情?

刘威:这应该是传言,如果属实,或许是被卡脖子的无奈之举,国内缺乏最高端的GPU芯片,这当然会相当影响预训练的质量与速度。

预训练很重要,它的作用是先将世界知识的分布模拟一遍,然后才有“后训练”。预训练确立了学习的目标,后训练则是充实了学习的技法。先有目标,才有技法;先炼内功,再学招式。

预训练费时费力,还不一定能训练成功。海外很多公司,尤其是美国硅谷的很多公司,直接采用Meta开源的Llama底座模型进行微调,迅速推向市场服务用户。从商业上来说,这无可厚非。

虎嗅:都去做预训练,算是不明智吗?

刘威:不仅是中国的公司在追赶OpenAI,借鉴他们的技术路线和方法,美国的公司如谷歌、Meta、Anthropic也在做同样的事情,都在做预训练,而谷歌在推出同类型模型产品上是追赶OpenAI最激进的一个。

虎嗅:什么样的公司适合去做预训练?

刘威:无论是在中国、美国还是欧洲,有AGI信仰的公司才能坚持做预训练。

接下来,AI如何继续进化?

接下来,AI如何继续进化?

虎嗅:o3出来之后,网络口碑一般,这个您怎么看?目前我们是否处在AI行业的某个分水岭?

刘威:o3在推理、编程、数学、科学方面的能力是非常强的,我认为在后训练scaling law的路线上,OpenAI目前还没到达分水岭。

如果我们探究OpenAI的全局技术路线,它确实已经跨过了第一个分水岭,即预训练的scaling law。它目前正处在探索新的scaling law(后训练或强化学习scaling law)的道路上,也已经从o1走到了o3。

虎嗅:为什么大家追上OpenAI的速度可以这么快,好像AI公司间的竞争壁垒没那么高?

刘威:这是好事。首先,没人敢说OpenAI的技术路线是错的,大家都在用实际行动表示跟随,OpenAI依旧是引领者。另外,大家也不希望行业里出现一个寡头。业界共同推动技术进步发展,行业也更健康。

虎嗅:一些大模型独角兽会认为世界模型是AI的下一个阶段,怎么理解世界模型?

刘威:世界模型这个词在学术界还没有清晰的定义。有3D重建式的世界模型,譬如李飞飞教授的World Labs正在做的;也有在视频中做一些自动理解、自动导航式的世界模型,譬如Meta的Yann LeCun团队研发的JEPA系列模型;特斯拉和一些国内的新能源车、自动驾驶公司,也在做自动驾驶场景里的自动规划、自动控制的世界模型。

就像AGI在学术界已经流传了多年,但很多学者,例如Yann LeCun就认为不应该叫AGI,应该叫human-level intelligence,是用“人类层次的智能”来替代AGI这样的叫法。

世界模型也是一样,或许未来有更好的命名方式表达。

按照我的理解,如果一个AI模型学习了全世界的人类知识,那么它就可以称为一个基础版的世界模型。从知识层面来看,GPT-4可算是文本知识领域的基础世界模型。如果从功用层面来看,世界模型的定义应该不仅涵盖人类层次的听说读写能力,还包括代替人类在物理世界去执行任务。那么,当前还没有一个AI模型能称为世界模型。

所以,我们应该把世界模型的研究范围放窄一些,先解决相对容易的问题,慢慢再扩充研究范围。我的观点是:当我们研究世界模型的时候,要先去定义什么是我们要研究的世界,大世界或者小世界。当确定了我们要研究的世界定义域,那么对世界模型的研究范畴—知识层面+功用层面—实际上就会变得更清晰。

虎嗅:关于大模型的进化,您之前在访谈里提到过,未来大模型可以通过自博弈的强化学习,来掌握自动升级的钥匙,无需人工干预就能实现迭代,这件事目前到什么阶段了?

刘威:这是我对未来大模型技术发展的一个预测。我觉得大语言模型的升级可以从完全人工干预逐步发展到半自动,最后演化为全自动升级。

目前大模型的对齐策略主要是与人类对齐,所以有RLHF(人类反馈的强化学习)。从公开信息源,我们发现OpenAI、Google、Meta、Anthropic正在或计划使用AI对齐策略,如RLAIF(AI反馈的强化学习)。

具体来说,这种AI对齐策略体现在:监督微调(SFT)中使用一个大语言模型(辅助模型或者前代模型)生成prompt-response格式的语料数据,RL中使用该模型对特定prompt的多个response进行打分或者排序(称为偏好数据)。比如,Meta开源的Llama 3的技术报告中,明确说明了它的对齐阶段,或者说后训练阶段,会依赖于Llama 3的早期模型版本来生成部分SFT语料数据。

OpenAI的12天直播里,展示了一项新技术叫RFT,也就是强化学习微调,这是非常关键的技术,它可以在线收集人类的少量反馈,然后让当前的大语言模型版本模拟这些人类反馈而生成更多的反馈样本,用人类反馈+AI反馈进行强化学习,微调当前模型版本,并可以持续迭代下去。

在对齐层面,将对齐的源头由人类换成了AI,这就是一个进步。但是,即使采用了AI对齐策略,后训练scaling law仍然可能有终结的一天。

因此,我一直在思考能否有比对齐驱动的强化学习更有效的学习范式。AI如果只和人类对齐,那么智能水平永远不可能超过人类,所以我建议尝试对抗式的自博弈强化学习,即AI和AI对抗竞争学习,这样AI的智能水平才有可能超过人类。

对抗式自博弈RL,正是 DeepMind的AlphaZero最早提出的技术,最初有多个决策式AI模型版本,让它们两两对抗PK,谁能赢,谁就survive,一系列优胜劣汰之后,得到最强的AI模型。最近,Hinton(被称为AI教父、诺奖得主)在访谈和演讲中提到,他很担心AI越来越强之后,会彼此竞争资源;比如,有公司同时训练了几个大语言模型,有的大语言模型会更智能,它可能会主动抢夺其他模型的数据资源和算力资源而变得更强。Hinton谈论的这些,就是自博弈式、对抗式的强化学习。

虎嗅:听起来有点像一个AI吞噬另一个AI。

刘威:未来可能会发生。当然,人类正在制定和完善各种制约、规范、协议等来避免AI的失控,尽早防范和杜绝AI对人类造成负面的影响。

虎嗅:目前大模型这个行业里,最让您兴奋的是什么呢?

刘威:最让我兴奋的是:何时能把自博弈式的对抗强化学习,用非常便宜的方式做出来。

虎嗅:已经看到有人在做了吗?

刘威:这个还不清楚,如果是学术界的朋友,我建议他们去研究。

这里我想举一个例子。OpenAI在2017年发明了PPO算法,一种在线强化学习算法。GPT-3.5和GPT-4用的就是PPO。而在去年5月份,斯坦福大学发表了一篇论文,提出了一个新的离线强化学习算法DPO,即直接偏好优化,它比PPO稳定很多、计算上轻量很多,于是业界都开始采用这个RL算法。而且,DPO提出来之后,OpenAI也在使用,它最近发布的强化学习微调就是采用了DPO。

学术界可以用不同于工业界的视角来研究很多技术问题,往往能提出非常巧妙的新方法。所以,对抗式自博弈的强化学习,我感觉会有计算更便宜、算法设计更巧妙的解决办法被研究出来。

虎嗅:那么它会对AI行业的发展产生什么影响?

刘威:会有新的scaling law诞生。也就是说,除了预训练的scaling law、强化学习的scaling law还会有一次范式迁移或升级,即自博弈强化学习scaling law。

它是对抗式的RL,不是对齐式的RL,用它驱动大模型的升级,会比对齐式RL的效率更高。

虎嗅:关于强化学习的scaling law,目前大家还没有达成共识吧?

刘威:OpenAI或许已经探索出自己的强化学习scaling law,其他公司可能还需要先去追赶o1,赶上之后方能去探索RL scaling law。

谈竞争

谈竞争

虎嗅:一些知名投资机构预测2025年AI应用会爆发,您怎么看?

刘威:如果从广义来看,从CV四小龙时期到现在的大模型六小虎时代,AI应用一直在蓬勃发展。我们每天都在和AI应用接触,比如说刷脸。

我们目前关注的AI应用,比如红杉美国的文章里提的AI应用,指的是agent智能体,它算是AI原生的应用。我认为agent是商业软件的未来,甚至是SaaS的未来,我也预测agentic AI会在2025年爆发。

虎嗅:在您看来,国内外AI创业者做的事情有什么不同?

刘威:据我了解,美国非常好的大学在非常积极、广泛地拥抱AI,这是在学术界;在硅谷的话,有没有AI,硅谷的创业热潮也都没有消退过。可能这一波生成式AI的创业浪潮比以前来的更猛烈,融资额度也比过去大,毕竟GPU算力很贵。

从追求AGI上来讲,硅谷和国内的AI行业,做的事情没什么本质不同。国内可能会借鉴硅谷的创业课题,比如对标cursor,做一些AI代码生成的创业公司。

虎嗅:国内外的AI产业,面对的挑战会有什么不同?比如,美国的AI巨头可能更缺能源,中国的AI独角兽更缺资金?

刘威:很难讲挑战是什么,只能说中美的诉求有差异。从一些公开报道来看,美国的几家AI巨头已经订购了大量高端的GPU,在2025年平均一家都有几十万块的英伟达B系列的卡。

在我看来,美国这些AI玩家,他们属于激进派,他们的诉求就是看谁能先达到AGI,无论是在囤人才、算力、资金等方面,都在进行军备竞赛。比如,在公开场合,Elon Musk预测,AGI最晚在2026年就会来;而Sam Altman预测最早在2025年能来,Google的AI一号位Demis Hassabis预测AGI在2030年能来。看来大家都认为AGI会在未来几年到来,那就看谁能率先做出来。

对于中国的AI行业来说,资金不是问题,从中央到地方,从企业到高校,对AI都很支持,而且支持的力度非常大。国内AI产业的诉求,我认为主要还是看AI能不能真的产生社会价值。

虎嗅:国内大模型公司的竞争,在创业方面有给你什么启发吗?

刘威:要有自己的绝活。就像在大语言模型的赛道,不能总是跟着几家美国AI巨头后面去追赶。可以尝试瞄准巨头做的不是那么好的赛道,在这个赛道以独特的技术主张,找到属于自己的scaling law。

打开网易新闻 查看精彩图片