当今人工智能的进步速度令人惊叹。
近几个月来,一种令人兴奋的新范式——基于推理时间计算的推理模型——已经出现,为人工智能能力开辟了全新的视野。
空气中弥漫着建筑高潮的感觉。AGI 似乎已经成为每个人热议的话题。
OpenAI 首席执行官 Sam Altman 上个月写道: “开始指向 AGI 的系统正在出现。” “我们面前的经济增长看起来令人惊叹,我们现在可以想象一个我们能治愈所有疾病并能充分发挥我们的创造潜力的世界。”
或者,正如 Anthropic 首席执行官 Dario Amodei最近所说:“过去几个月我在 Anthropic 内部和外部的所见所闻让我相信,我们正朝着人类水平的人工智能系统的目标迈进,该系统将在 2-3 年内在所有任务上超越人类。”
然而,当今的人工智能仍然缺少任何智能系统都应具备的一项基本能力。
许多行业参与者甚至没有意识到这一缺陷的存在,因为目前构建人工智能系统的方法已经变得如此普遍和根深蒂固。但如果不解决这个问题,真正的人类级人工智能仍将难以实现。
缺少的是什么能力?就是持续学习的能力。
我们这样说是什么意思呢?
当今的人工智能系统经历两个不同的阶段:训练和推理。
首先,在训练期间,AI 模型会获得大量数据,以便模型了解世界。然后,在推理期间,模型开始投入使用:它根据在训练期间学到的知识生成输出并完成任务。
人工智能的所有学习都发生在训练阶段。训练完成后,人工智能模型的权重将变为静态。尽管人工智能在部署到现实世界后会接触到各种新数据和经验,但它并不会从这些新数据中学习。
为了让人工智能模型获得新知识,通常必须从头开始重新训练。就当今最强大的人工智能模型而言,每次新的训练运行都可能需要数月时间,耗资数亿美元。
花点时间思考一下这是多么奇怪和不理想的情况。当今的人工智能系统无法边运行边学习。它们无法即时吸收新信息以不断提高自身水平或适应不断变化的情况。
从这个意义上讲,人工智能与人类智能截然不同,而且能力也低于人类智能。人类认知并不分为“训练”和“推理”两个阶段。相反,人类不断学习,实时吸收新信息并加深理解。(可以说,人类一直在同时进行训练和推理。)
如果我们能够消除人工智能中训练和推理之间繁琐而僵化的区别,让人工智能系统能够像人类一样不断学习,那会怎样?
这一基本概念在人工智能文献中有许多不同的名称:持续学习、终身学习、增量学习、在线学习。
这一直是人工智能研究人员的目标——但长期以来仍无法实现。
最近出现了另一个术语来描述同样的想法:“测试时间训练”。
正如 Perplexity 首席执行官 Aravind Srinivas最近所说:“测试时计算目前只是通过思维链进行推理。我们还没有开始进行测试时训练——模型更新权重以找出新事物或吸收大量新背景,而不会失去通用性和原始智商。当这种情况发生时,将会非常惊人。”
在持续学习技术成熟之前,基础研究问题仍有待解决。但初创公司和研究实验室正在在这方面取得令人振奋的进展。持续学习技术的出现将对人工智能世界产生深远影响。
解决方法和半解决方案
值得注意的是,目前存在一些解决方法来缓解人工智能无法持续学习的问题。其中三种方法特别值得一提。虽然每种方法都能有所帮助,但没有一种方法可以完全解决问题。
首先是模型微调。一旦 AI 模型经过预训练,就可以随后在少量新数据上进行微调,以逐步更新其知识库。
原则上,持续对模型进行微调可能是使人工智能系统在发展过程中吸收新知识的一种方法。
然而,定期对模型进行微调从根本上来说仍然是一种基于批处理而非连续的方法;它无法实现真正的即时学习。
尽管对模型进行微调比从头开始进行预训练所需的资源更少,但它仍然很复杂、耗时且昂贵,因此频繁进行并不切实际。
也许最重要的是,只有当新数据与原始训练数据相差不大时,微调才能发挥良好作用。如果数据分布发生巨大变化(例如,如果模型面临一项全新的任务或环境,与它之前遇到的任何情况都不一样),那么微调可能会成为灾难性遗忘这一基本挑战的牺牲品(下文将详细讨论)。
第二种解决方法是将某种形式的检索与某种形式的外部存储器相结合:例如,检索增强生成 (RAG) 与动态更新的矢量数据库配对。
此类人工智能系统可以持续将新知识存储在模型之外的数据库中,然后在需要时从该数据库中提取信息。这可以是人工智能模型不断整合新信息的另一种方式。
但这种方法的可扩展性较差。人工智能系统积累的新知识越多,使用外部数据库以高效方式存储和检索所有这些新信息就越困难。延迟、计算成本、检索准确性和系统复杂性都限制了这种方法的实用性。
缓解人工智能无法持续学习的最后一种方法是情境学习。
AI 模型具有出色的能力,可以根据提示中呈现的信息(包含在当前上下文窗口中)更新其行为和知识。模型的权重不会改变;相反,提示本身是学习的来源。这被称为情境学习。例如,情境学习使得“提示工程”的实践成为可能。
情境化学习优雅而高效,但它也是短暂的。
一旦信息不再存在于上下文窗口中,新的学习就会消失:例如,当不同的用户开始使用同一个 AI 模型进行会话时,或者当同一个用户第二天开始使用该模型进行新会话时。由于模型的权重没有改变,其新知识不会随着时间的推移而持续存在。这严重限制了情境学习在实现真正的持续学习方面的实用性。
护城河,护城河,护城河
持续学习代表着如此诱人的可能性的一个重要原因是:它可以为下一代人工智能应用创造持久的护城河。
这是如何实现的?
如今,OpenAI 的 GPT-4o 对于每个使用它的人来说都是同一个模型。它不会根据与你的历史而改变(尽管产品 ChatGPT 确实包含了一些持久记忆的元素)。
这使得用户能够轻松地在 OpenAI、Anthropic、Google、DeepSeek 等之间切换。这些公司的任何模型都会对给定的提示给出大致相同的响应,无论您之前与之有过数千次交互还是第一次尝试。
难怪当今的传统观点认为人工智能模型不可避免地会商品化。
相比之下,在持续学习机制中,用户使用模型的次数越多,模型就越个性化。随着你日复一日地使用模型,模型会越来越适合你的上下文、用例、偏好和环境。随着它了解你和你关心的事情,它的神经元实际上会重新连接。它会了解你。
想象一下,如果个人人工智能代理能够实时、可靠地适应您的特定需求和特性,从而与您建立持久的关系,那么它将有多么引人注目。
(若想戏剧性地说明持续学习可能是什么样子——以及它与当今的人工智能有何不同——请想想 2013 年电影《她》中的萨曼莎角色。)
无论对于消费者还是企业来说,持续学习的影响都是巨大的。
使用法律人工智能应用程序的律师会发现,使用该应用程序几个月后,应用程序对律师的客户名单、律师如何与不同同事打交道、律师如何撰写法律论据、律师何时选择反驳客户还是顺从他们的偏好等有了比一开始更深入的了解。招聘人员会发现,他使用人工智能产品的次数越多,产品就越直观地了解他倾向于优先考虑哪些候选人、他喜欢如何进行筛选面试、他如何撰写职位描述、他如何进行薪酬谈判等。会计师、医生、软件工程师、产品设计师、销售人员、作家等的人工智能产品也是如此。
持续学习将使人工智能以前所未有的方式实现个性化。这将使人工智能产品以前所未有的方式具有粘性。
经过一段时间的使用后,你的AI 模型将与其他人开发的版本或同一模型的现成版本有很大不同。它的权重将适应你。这会使切换到竞争产品变得痛苦和不便,就像用新员工替换训练有素、表现出色的员工一样痛苦和不便。
风险投资家喜欢痴迷于“护城河”——公司持久的竞争优势来源。
人工智能时代,特别是在应用层,最重要的新护城河是什么,这仍是一个悬而未决的问题。
关于人工智能护城河的一个长期说法与专有数据有关。根据这种说法,人工智能产品收集的用户数据越多,产品在从这些数据中学习时就会变得越好、越有差异化,因此护城河就越深。这个故事符合直觉,如今被广泛重复。
然而,到目前为止,收集更多用户数据在多大程度上真正导致了人工智能产品的差异化和护城河仍然有限——这恰恰是因为人工智能系统实际上并没有根据新数据不断学习和适应。由于这些产品中的用户级个性化,你作为用户今天在使用 Perplexity、ChatGPT 和 Claude 时体验到多少锁定?
持续学习将改变这一现状。它将首次释放人工智能的全部潜力,为超个性化和超粘性的人工智能产品提供动力。它将为人工智能时代创造一种全新的护城河。
持续学习的致命弱点
持续学习的潜在优势是巨大的。它将为人工智能释放全新的能力和市场机会。
持续学习的想法并不新鲜。人工智能研究人员已经谈论它几十年了。
那么:为什么今天的人工智能系统仍然不能持续学习呢?
构建能够持续学习的人工智能系统存在一个根本障碍——即所谓的灾难性遗忘。灾难性遗忘很容易解释,但解决起来却极其困难。
简而言之,灾难性遗忘是指神经网络在添加新知识时倾向于覆盖并丢失旧知识。
具体来说,想象一个人工智能模型,其权重已经过优化以完成任务 A。然后,它会接触到与完成任务 B 相关的新数据。持续学习的核心前提是模型的权重可以动态更新,以学习解决任务 B。然而,通过更新权重来完成任务 B,模型完成任务 A 的能力不可避免地会下降。
人类不会遭遇灾难性遗忘。例如,学习如何开车不会让我们忘记如何做数学。不知何故,人类大脑设法在不牺牲现有知识的情况下不断吸收新知识。与许多与人脑有关的事情一样,我们并不确切了解它是如何做到这一点的。几十年来,人工智能研究人员一直试图在人工神经网络中重现这种能力——但没有取得多大成功。
整个持续学习领域首先可以被理解为解决灾难性遗忘问题的尝试。
这里的核心挑战是找到稳定性和可塑性之间的适当平衡。增加一个必然会危及另一个。随着神经网络变得更加稳定和变化性降低,它忘记现有学习的危险性会降低,但它吸收新学习的能力也会降低。相反,高度可塑的神经网络可能能够很好地整合来自新数据的新学习,但它这样做是以牺牲其权重先前编码的知识为代价的。
现有的持续学习方法可以分为三类,每类方法都试图通过在稳定性和可塑性之间取得适当的平衡来解决灾难性遗忘问题。
第一类方法称为重放或排练。重放方法的基本思想是不断保留和重新审视旧数据样本,同时从新数据中学习,以防止丢失旧知识。
实现此目标的最直接方法是将来自先前任务的代表性数据点存储在“内存缓冲区”中,然后在学习新事物时将这些旧数据与新数据交织在一起。一种更复杂的替代方法是训练一个生成模型,该模型可以生成近似旧数据的合成数据,然后使用该模型的输出“重放”先前的知识,而无需实际存储早期的数据点。
基于重放的持续学习方法的核心缺点是它们不能很好地扩展(原因与上述基于 RAG 的方法类似)。持续学习系统随着时间的推移接触的数据越多,以紧凑的方式保留和“重放”所有先前数据就越不切实际。
持续学习的第二种主要方法是正则化。基于正则化的方法试图通过在学习过程中引入保护现有知识的约束来减轻灾难性遗忘:例如,通过识别对现有知识特别重要的模型权重并减慢这些权重的变化速度,同时使神经网络的其他部分能够更自由地更新。
属于这一类别的有影响力的算法包括弹性权重合并(来自 DeepMind)、突触智能(来自斯坦福大学)和学习不遗忘(来自伊利诺伊大学)。
基于正则化的方法在某些情况下效果很好。但是,当环境变化太大时(即新数据看起来与旧数据完全不同时),它们就会失效,因为它们的学习限制阻止它们完全适应。简而言之:稳定性太高,可塑性不足。
持续学习的第三种方法是架构性的。
前两种方法假设神经网络架构固定,旨在通过更新和优化一组共享权重来吸收新知识。相比之下,架构方法通过将 AI 模型架构的不同组件分配给不同的知识领域来解决增量学习的问题。这通常包括通过添加新的神经元、层或子网络来动态扩展神经网络以响应新的知识。
持续学习架构方法的一个突出例子是渐进式神经网络 (Progressive Neural Networks),它由 DeepMind 于 2016 年推出。
将模型架构的不同部分用于不同类型的知识有助于缓解灾难性遗忘,因为可以合并新的学习内容,同时保持现有参数不变。然而,一个主要缺点是可扩展性:如果神经网络在添加新知识时不断增长,它最终会变得非常庞大和复杂。
虽然基于重放、基于正则化和基于架构的持续学习方法多年来都显示出一定的前景,但这些方法都不足以在当今的现实环境中实现任何规模的持续学习。
让持续学习成为现实
然而,过去的一年见证了持续学习领域令人兴奋的新一轮进步。生成式人工智能和大型语言模型的出现重新定义了这一领域的可能性。突然之间,似乎能够边学习边适应的人工智能模型即将出现。
一些领先的人工智能初创公司处于这个快速发展的领域的前列。其中值得一提的是 Writer 和 Sakana。
Writer 是一个企业 AI 平台,拥有众多财富 500 强蓝筹客户,其中包括 Prudential、Intuit、Salesforce、强生、Uber、欧莱雅和埃森哲。
去年 11 月,Writer推出了一种被称为自我进化模型的新型 AI 架构。
Writer 团队写道:“这些模型能够实时识别和学习新信息,适应不断变化的情况,而无需完整的再训练周期。自我进化的模型能够随着时间的推移提高其准确性,从用户行为中学习,并深深嵌入到业务知识和工作流程中。”
Writer 是如何打造出能够持续学习的 AI 模型的?该公司的自我进化模型是如何运作的?
当自我进化的模型接触到新信息时,它会主动自我反思,以确定自己在知识方面存在哪些差距。如果它犯了错误或未能完成任务,它会反思哪里出了问题并提出改进的想法。然后,它会将这些自我生成的见解存储在每个模型层内的短期记忆池中。
将这些学习存储在模型的各个层中意味着模型可以在处理输入时立即访问和应用这些信息,而无需暂停并查询外部源。它还使内存池中的信息能够直接塑造模型的注意力机制,使其响应更加准确和明智。
而且由于内存池的大小是固定的,因此它们避免了早期持续学习方法(如重放)所面临的可扩展性挑战。这些内存池不会随着模型积累更多知识而变得难以管理,而是像不断更新的短期暂存器一样运行。
然后,当模型确定其短期记忆中积累了足够多的重要知识时,它会定期使用强化学习自主更新其权重,以便更持久地巩固这些知识。具体来说,Writer 的自我进化模型使用一种强化学习方法,称为组相对策略优化 (GRPO),由 DeepSeek 推广。
“自我进化模型不是通过简单地参考过去(如基于重放的方法)来解决灾难性学习问题,而是通过构建一个优雅进化的系统——反思、记忆和适应而不会失去其核心,”Writer 联合创始人兼首席技术官 Waseem Alshikh 表示。“它并没有完全背离持续学习的根源,但它是一种新的转变,利用了最新的 LLM 自我改进。这种设计反映了我们的信念,即人工智能的未来不仅仅是更大的模型,而是更智能、更具适应性的模型。它高效实用,尤其是对于事物快速变化的现实世界应用而言。”
Writer 的自我进化模型目前已在客户中部署。
另一家正在推进持续学习前沿的尖端人工智能初创公司是 Sakana AI。Sakana 总部位于日本,是一家由谷歌顶尖人工智能科学家创立的人工智能研究实验室,其中包括transformer 架构的共同发明者之一。
今年 1 月,Sakana 发布了一项关于其所谓的自适应 AI 的新研究。Sakana 的新方法名为 Transformer²(“Transformer Squared”),它使 AI 模型能够根据所面临的任务实时动态调整权重。
Sakana 研究团队写道:“我们的研究让我们看到了未来人工智能模型不再是静态的。这些系统将在测试时动态扩展其计算能力,以适应所遇到的任务的复杂性,体现出能够不断变化和终身学习的活生生的智能。我们相信,自适应性不仅会改变人工智能研究,还会重新定义我们与智能系统的互动方式,创造一个适应性和智能并驾齐驱的世界。”
Transformer² 的工作原理是首先在 AI 模型中开发适合处理不同主题的特定任务专家向量(例如,数学向量、编码向量等)。
在推理时,系统遵循两步流程(因此得名 Transformer²)根据上下文进行自适应。首先,系统实时确定哪些技能和知识(以及哪些向量)与当前任务最相关。其次,神经网络动态放大部分专家向量并抑制其他向量,修改其基本权重以适应当前情况。
Transformer² 方法与上面讨论的持续学习的架构方法以及混合专家 (MoE) 系统有一些主题重叠;所有这些方法都涉及 AI 模型内的“专家”模块化子系统。
Transformer² 在 GSM8K 和 ARC 等关键基准上表现出色,远远超越了 LoRA 等流行的微调方法,同时需要的参数更少。
用领导这项工作的 Sakana 研究科学家 Yujin Tang 的话来说:“Transformer² 是一种轻量级、模块化的适应方法。与 MoE 不同,在 MoE 中,‘专家’的出现没有明确的专业化,而我们的方法则利用真正的特定任务专业知识动态地改进表示。虽然还不是完全的持续学习,但这是迈向实时进化而没有灾难性遗忘的人工智能的关键一步。”
结论
当今的人工智能模型是静态的。一旦部署,它们就不会在获得新信息时发生变化。这是任何智能系统都存在的一个显著缺陷。与生物智能相比,这代表了人工智能的一个巨大弱点。
但这种情况正在迅速改变。在人工智能的前沿,研究人员正在开发新型人工智能模型,这些模型可以通过不断更新权重来在整个生命周期内进行学习和适应。
无论你将这种新范式称为自我进化人工智能、自适应人工智能、测试时间训练还是(更传统的术语)持续学习,它都是当今人工智能领域最令人兴奋和最重要的研究领域之一。
它正在迅速消除训练和推理之间的传统鸿沟,为人工智能开辟全新的能力视野。它还为人工智能原生初创公司提供了新的护城河和防御能力来源。
持续学习将颠覆既定假设,重新定义人工智能的可能性。敬请期待。
免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
关注我们,一起探索AWM!
2025-03-10
2025-03-07
2025-02-28
热门跟贴