在麻省理工学院的课堂上,一位教授正在讲课,而学生们则认真地记下笔记,以便在考试前重新阅读并掌握关键信息。
人类知道如何学习新信息,但大型语言模型却无法像人类那样学习。一旦一个完全训练好的大型语言模型被部署,它的“大脑”就是静态的,无法永久适应新知识。
这意味着,如果用户今天告诉大型语言模型一些重要的事情,下次与聊天机器人对话时,它不会记住这些信息。
现在,麻省理工学院的研究人员开发了一种新方法,使大型语言模型能够以一种能永久记住新信息的方式自我更新。就像学生一样,大型语言模型根据用户的输入制作自己的学习资料,并通过更新其内部工作来记忆信息。这项工作已在 arXiv 预印本服务器上发布。
该模型生成多个自我编辑以从一个输入中学习,然后应用每一个看看哪个方法能最有效地提升它的表现。这种试错过程教会模型最佳的自我训练方式。
研究人员发现,这种方法提高了大型语言模型在问答和模式识别任务中的准确性,并让一个小模型的表现超过了更大的模型。
虽然仍然存在必须克服的局限性,但这种技术有朝一日可能帮助人工智能代理系统持续适应新任务,并在不断变化的环境中实现变化的目标。
“就像人类一样,复杂的人工智能系统不能在其整个生命周期内保持不变。这些大型语言模型(LLMs)并不是在固定环境中使用的。它们不断面临来自用户的新输入。我们希望打造一个更像人类的模型,能够不断自我改进,”麻省理工学院研究生、该技术论文的共同首席作者Jyothish Pari说道。
论文的共同首席作者还有麻省理工学院本科生Adam Zweiger;研究生Han Guo和Ekin Akyürek;以及资深作者Yoon Kim,他是电气工程与计算机科学系(EECS)的助理教授,同时也是计算机科学与人工智能实验室(CSAIL)的成员,以及Pulkit Agrawal,他是EECS的助理教授,也是CSAIL的成员。
这项研究将在神经信息处理系统会议上展示。
教模型学习
LLMs是神经网络模型,具有数十亿个参数,称为权重,这些权重包含模型的知识并处理输入以进行预测。在训练过程中,模型调整这些权重以学习其训练数据中包含的新信息。
但一旦部署,这些权重是静态的,无法再进行永久更新。
然而,LLM在一个叫做上下文学习(in-context learning)的过程中表现得非常出色,在这个过程中,经过训练的模型通过看到几个示例来学习新任务。这些示例指导模型的响应,但知识在下一个对话之前就消失了。
麻省理工学院的研究人员希望利用模型强大的上下文学习能力,教它如何在遇到新知识时,永久性地更新其权重。
他们开发的框架称为 SEAL,即“自适应的LLM”,使LLM能够基于输入生成新的合成数据,然后确定最佳方式来适应自己并从这些合成数据中学习。每一条合成数据都是模型可以应用的自我编辑。
在语言方面,LLM通过重写输入段落中的信息及其含义来创建合成数据。这类似于学生通过重写和总结原始讲座内容来制作学习资料。
LLM多次执行此操作,然后对每个自我编辑进行自测,以查看哪个自我编辑在下游任务(如问答)中带来了最大的性能提升。它使用一种称为强化学习的试错方法,在这种方法中,它因获得最佳性能提升而获得奖励。
然后,模型通过更新其权重,将该自我编辑中的信息内化。
“我们的希望是模型能够学习制作最佳的学习表——一种长度合适且信息多样性恰当的资料——以便基于它更新模型,从而使模型变得更好,” Zweiger 解释道。
选择最佳方法
他们的框架还允许模型选择想要学习信息的方式。例如,模型可以选择想要使用的合成数据、学习速率以及训练的迭代次数。
在这种情况下,模型不仅生成自己的训练数据,还配置将自我编辑应用到其权重的优化。
“作为人类,我们知道自己如何学习得最好。我们希望将这种能力赋予大型语言模型。通过赋予模型控制如何处理这些信息的能力,它可以找出解析所有输入数据的最佳方式,” Pari 说。
SEAL 在多个任务中表现优于几种基线方法,包括从少量示例中学习新技能和从文本段落中整合知识。在问答任务中,SEAL 的模型准确性提高了近 15%,在某些技能学习任务中,它的成功率提高了超过 50%。
但这种方法有一个局限性,称为灾难性遗忘:随着模型不断适应新信息,早期任务的表现会逐渐下降。
研究人员计划在未来的研究中减轻灾难性遗忘现象。他们还希望将这一技术应用于多智能体环境,其中多个大型语言模型之间进行相互训练。
“能够进行有意义科学研究的语言模型面临的主要障碍之一是它们无法根据与新信息的互动进行自我更新。尽管完全自适应的模型仍然遥不可及,但我们希望未来能够以这种方式学习的系统能克服这个障碍,推动科学进步,”Zweiger说。
更多信息: Adam Zweiger 等, 自适应语言模型研究, arXiv (2025). DOI: 10.48550/arxiv.2506.10943
由麻省理工学院提供
热门跟贴