来源:专知

打开网易新闻 查看精彩图片

随着大语言模型(LLMs)的持续演进,单纯依赖人类监督进行模型改进的成本日益高昂,且在可扩展性(Scalability)方面面临瓶颈。当模型在特定领域接近人类水平时,人类反馈可能无法再为模型的进一步演进提供充足的信息增量信号(Informative signals)。与此同时,模型自主决策与执行复杂任务能力的增强,为模型开发流程的逐步自动化提供了天然的抽象基础。在挑战与机遇的共同驱动下,“自我提升(Self-improvement)”技术引起了学术界的广泛关注——即模型通过自主生成数据、评估输出并迭代优化自身能力。

本文提出了自我提升语言模型的系统级视角,并引入了一个整合现有技术的统一框架。我们将自我提升系统定义为一个闭环生命周期(Closed-loop lifecycle),涵盖四个紧密耦合的过程:数据获取(Data acquisition)、数据筛选(Data selection)、模型优化(Model optimization)以及推理细化(Inference refinement),并辅以一个自主评估层(Autonomous evaluation layer)。在该框架下,模型自身成为驱动各阶段的核心主体:负责收集或生成数据、筛选关键信号、更新参数及优化输出;同时,自主评估层持续监测模型进展,并引导跨阶段的改进循环。基于此生命周期视角,我们从技术维度系统地评述了各核心组件的代表性方法。最后,我们探讨了当前的局限性,并对通往完全自主提升 LLM 的研究方向进行了展望。

打开网易新闻 查看精彩图片

1 引言

大语言模型(LLMs)通过扩展模型规模、训练数据和计算量,实现了快速且持续的性能提升 (Brown et al., 2020; Ouyang et al., 2022; Hoffmann et al., 2022; OpenAI et al., 2024)。这一进展背后一个被广泛认可的假设是:更大规模、更高质量的数据集(尤其是专家标注的人类监督信号)能够催生更强大的模型。在实践中,如 RLHF (Ouyang et al., 2022) 等方法高度依赖于精细策划的高质量监督,以对预训练模型进行对齐和优化。然而,随着模型的不断演进,主要依靠人类监督的改进范式显现出若干结构性局限:(1) 人类数据稀缺性日益凸显。高质量的专家标注数据成本高昂且难以规模化 (Gilardi et al., 2023; Villalobos et al., 2024)。构建大规模监督数据集的边际成本迅速增长,而专家劳动力的供给却十分有限。(2) 人类认知边界带来的深层限制。如果模型的监督信号永久受限于人类智能,模型是否能真正超越人类水平?当模型在特定领域接近或超过人类水平时,人类反馈可能不再能为进一步的提升提供充足的梯度信息 (Bowman, 2023; Burns et al., 2023)。这提出了一个根本性问题:当模型与监督者达到水平对等时,如何继续实现自我进化?这些限制共同驱动了对**模型自我提升(Model Self-improvement)**这一极具前景方向的探索。模型不再完全依赖外部的人类信号,而是利用其自身能力生成数据、评估输出并迭代优化其策略。

从自动化的视角来看,这一方向不仅是理想的,更是自然的。随着 LLM 变得日益先进,它们已展示出解决复杂工程任务和进行高层决策的能力。鉴于 LLM 的开发流程(包括数据获取、筛选及模型训练)本身就是一项高度复杂的工程,将这些职责委托给模型自身是发展的必然趋势。通过将 LLM 作为智能体来编排自身的开发生命周期,一个“系统侧”的自我提升闭环得以建立。如图 1 所示,我们的愿景是从人类驱动的模型开发转向自主自我提升系统范式,使 LLM 能够通过自我导向的迭代和反馈不断增强其能力。

我们将 LLM 的自我提升定义为一种学习范式,即模型在无需持续的人类在环(Human-in-the-loop)监督下,迭代地增强自身能力。该范式具有两个核心属性:自主性(Autonomy),即改进过程在没有持续人工标注或手动纠正的情况下运行。“自我”并不排斥外部组件的使用,例如教师模型、验证器、批判器、奖励模型或自动评估器仍可被引入,关键要求是学习闭环在部署后必须是完全自动化的;持续性(Continuity),自我提升并非一次性的优化,而是一个迭代的、自我强化的过程,早期阶段的输出或经验被重新利用,为随后的更新生成更强的监督信号。每一轮改进都依赖并放大先前的结果,从而实现随时间的累积性进展。在此定义下,自我提升不仅是提高任务指标的技术,更是一种实现持续、自主增长的结构性能力。从 AI 长期发展的视角看,这种能力被广泛认为是构建能够超越初始训练机制、持续学习与适应系统的核心。

受上述愿景启发,如图 2 所示,我们提出了一个由五个互连组件组成的生命周期自我提升系统。其中四个组件——数据获取(Data Acquisition)、数据筛选(Data Selection)、模型优化(Model Optimization)和推理细化(Inference Refinement)——共同回答了一个核心问题:为了构建端到端的自我提升系统,如何在不同阶段利用模型自身来驱动持续且自主的贡献?具体而言:

  • 数据获取:模型自主收集或生成其训练数据。

  • 数据筛选:模型独立评估并过滤出质量更高、更适合自身学习的数据点。

  • 模型优化:模型自主学习,有效地将数据转化为其参数内部的增强能力。

  • 推理细化:模型在推理过程中提升自身表现,而无需更改其底层参数。

除这四个阶段外,系统还需要一种长期衡量与引导机制,以确保自我提升的稳定性和可持续性。为此,我们引入了第五个组件:自主评估(Autonomous Evaluation),它为模型性能提供持续反馈并协助引导其未来发展。由于静态基准测试会迅速过时,且人类驱动的评估无法随系统增长而规模化,这种机制至关重要。通过自主评估,模型可以保持及时、自适应的反馈,支撑长期的持续改进。

这五个组件共同将模型置于自动化迭代闭环的核心地位。该统一系统确保了改进信号被一致地生成、筛选、应用、细化和评估,为 LLM 广泛的系统级自我提升铺平了道路。近期多项综述已开始从不同角度审视自我提升,反映了该领域的增长。例如,Tao et al. (2024) 侧重于通过自我训练和强化学习实现策略级自我演化;Dong et al. (2024) 回顾了提示词(Prompting)和解码细化等推理时改进技术;而 Fang et al. (2025a) 和 Gao et al. (2026) 则强调智能体系统,突出记忆、反思和工具增强交互。尽管已有这些努力,多数现有研究仍集中在应用于特定阶段(如训练或推理)的局部机制。相比之下,我们采用了系统级视角,将自我提升构想为一个统一的闭环生命周期,将模型开发的所有阶段整合进一个连贯的、用于规模化自主演化的端到端框架中。

本文余下部分的组织架构分为两个主要部分。首先,从技术角度出发,我们系统地研究了自我提升系统中的每个组件(§2 至 §6)。在每个阶段,我们先提供高层综述介绍,随后将现有方法组织成结构化类别(如图 3 所示)。我们在每节末尾均包含讨论,以总结核心见解,并分析各阶段如何相互作用并贡献于整体系统。其次,我们对自我提升系统进行了更具一般性的讨论(§7 至 §9),包括挑战与局限、应用及未来展望,从更广泛的维度探讨系统整体。此外,尽管本文主要以模型为中心,我们也纳入了关于**自我演化智能体(Self-evolving agents)**的工作,例如在 §5.4 介绍了基于智能体系统的推理时改进,并在 §8 讨论了其跨领域应用。我们认为,从单一阶段向统一自我提升系统的转变,与从独立模型向智能体系统的跨越相互呼应,反映了向更具自主性和交互性的学习系统范式转化的共同趋势。

打开网易新闻 查看精彩图片

https://www.zhuanzhiai.com/vip/66825ded762a2f00b1a3df3b05e48204

打开网易新闻 查看精彩图片