大语言模型的自提升：技术综述与未来展望|信号|大模型|大语言模型|技术综述|智能体|生命周期

来源：专知

随着大语言模型（LLMs）的持续演进，单纯依赖人类监督进行模型改进的成本日益高昂，且在可扩展性（Scalability）方面面临瓶颈。当模型在特定领域接近人类水平时，人类反馈可能无法再为模型的进一步演进提供充足的信息增量信号（Informative signals）。与此同时，模型自主决策与执行复杂任务能力的增强，为模型开发流程的逐步自动化提供了天然的抽象基础。在挑战与机遇的共同驱动下，“自我提升（Self-improvement）”技术引起了学术界的广泛关注——即模型通过自主生成数据、评估输出并迭代优化自身能力。

本文提出了自我提升语言模型的系统级视角，并引入了一个整合现有技术的统一框架。我们将自我提升系统定义为一个闭环生命周期（Closed-loop lifecycle），涵盖四个紧密耦合的过程：数据获取（Data acquisition）、数据筛选（Data selection）、模型优化（Model optimization）以及推理细化（Inference refinement），并辅以一个自主评估层（Autonomous evaluation layer）。在该框架下，模型自身成为驱动各阶段的核心主体：负责收集或生成数据、筛选关键信号、更新参数及优化输出；同时，自主评估层持续监测模型进展，并引导跨阶段的改进循环。基于此生命周期视角，我们从技术维度系统地评述了各核心组件的代表性方法。最后，我们探讨了当前的局限性，并对通往完全自主提升 LLM 的研究方向进行了展望。

1 引言

大语言模型（LLMs）通过扩展模型规模、训练数据和计算量，实现了快速且持续的性能提升 (Brown et al., 2020; Ouyang et al., 2022; Hoffmann et al., 2022; OpenAI et al., 2024)。这一进展背后一个被广泛认可的假设是：更大规模、更高质量的数据集（尤其是专家标注的人类监督信号）能够催生更强大的模型。在实践中，如 RLHF (Ouyang et al., 2022) 等方法高度依赖于精细策划的高质量监督，以对预训练模型进行对齐和优化。然而，随着模型的不断演进，主要依靠人类监督的改进范式显现出若干结构性局限：(1) 人类数据稀缺性日益凸显。高质量的专家标注数据成本高昂且难以规模化 (Gilardi et al., 2023; Villalobos et al., 2024)。构建大规模监督数据集的边际成本迅速增长，而专家劳动力的供给却十分有限。(2) 人类认知边界带来的深层限制。如果模型的监督信号永久受限于人类智能，模型是否能真正超越人类水平？当模型在特定领域接近或超过人类水平时，人类反馈可能不再能为进一步的提升提供充足的梯度信息 (Bowman, 2023; Burns et al., 2023)。这提出了一个根本性问题：当模型与监督者达到水平对等时，如何继续实现自我进化？这些限制共同驱动了对**模型自我提升（Model Self-improvement）**这一极具前景方向的探索。模型不再完全依赖外部的人类信号，而是利用其自身能力生成数据、评估输出并迭代优化其策略。

从自动化的视角来看，这一方向不仅是理想的，更是自然的。随着 LLM 变得日益先进，它们已展示出解决复杂工程任务和进行高层决策的能力。鉴于 LLM 的开发流程（包括数据获取、筛选及模型训练）本身就是一项高度复杂的工程，将这些职责委托给模型自身是发展的必然趋势。通过将 LLM 作为智能体来编排自身的开发生命周期，一个“系统侧”的自我提升闭环得以建立。如图 1 所示，我们的愿景是从人类驱动的模型开发转向自主自我提升系统范式，使 LLM 能够通过自我导向的迭代和反馈不断增强其能力。

我们将 LLM 的自我提升定义为一种学习范式，即模型在无需持续的人类在环（Human-in-the-loop）监督下，迭代地增强自身能力。该范式具有两个核心属性：自主性（Autonomy），即改进过程在没有持续人工标注或手动纠正的情况下运行。“自我”并不排斥外部组件的使用，例如教师模型、验证器、批判器、奖励模型或自动评估器仍可被引入，关键要求是学习闭环在部署后必须是完全自动化的；持续性（Continuity），自我提升并非一次性的优化，而是一个迭代的、自我强化的过程，早期阶段的输出或经验被重新利用，为随后的更新生成更强的监督信号。每一轮改进都依赖并放大先前的结果，从而实现随时间的累积性进展。在此定义下，自我提升不仅是提高任务指标的技术，更是一种实现持续、自主增长的结构性能力。从 AI 长期发展的视角看，这种能力被广泛认为是构建能够超越初始训练机制、持续学习与适应系统的核心。

受上述愿景启发，如图 2 所示，我们提出了一个由五个互连组件组成的生命周期自我提升系统。其中四个组件——数据获取（Data Acquisition）、数据筛选（Data Selection）、模型优化（Model Optimization）和推理细化（Inference Refinement）——共同回答了一个核心问题：为了构建端到端的自我提升系统，如何在不同阶段利用模型自身来驱动持续且自主的贡献？具体而言：

数据获取：模型自主收集或生成其训练数据。
数据筛选：模型独立评估并过滤出质量更高、更适合自身学习的数据点。
模型优化：模型自主学习，有效地将数据转化为其参数内部的增强能力。
推理细化：模型在推理过程中提升自身表现，而无需更改其底层参数。

除这四个阶段外，系统还需要一种长期衡量与引导机制，以确保自我提升的稳定性和可持续性。为此，我们引入了第五个组件：自主评估（Autonomous Evaluation），它为模型性能提供持续反馈并协助引导其未来发展。由于静态基准测试会迅速过时，且人类驱动的评估无法随系统增长而规模化，这种机制至关重要。通过自主评估，模型可以保持及时、自适应的反馈，支撑长期的持续改进。

这五个组件共同将模型置于自动化迭代闭环的核心地位。该统一系统确保了改进信号被一致地生成、筛选、应用、细化和评估，为 LLM 广泛的系统级自我提升铺平了道路。近期多项综述已开始从不同角度审视自我提升，反映了该领域的增长。例如，Tao et al. (2024) 侧重于通过自我训练和强化学习实现策略级自我演化；Dong et al. (2024) 回顾了提示词（Prompting）和解码细化等推理时改进技术；而 Fang et al. (2025a) 和 Gao et al. (2026) 则强调智能体系统，突出记忆、反思和工具增强交互。尽管已有这些努力，多数现有研究仍集中在应用于特定阶段（如训练或推理）的局部机制。相比之下，我们采用了系统级视角，将自我提升构想为一个统一的闭环生命周期，将模型开发的所有阶段整合进一个连贯的、用于规模化自主演化的端到端框架中。

本文余下部分的组织架构分为两个主要部分。首先，从技术角度出发，我们系统地研究了自我提升系统中的每个组件（§2 至 §6）。在每个阶段，我们先提供高层综述介绍，随后将现有方法组织成结构化类别（如图 3 所示）。我们在每节末尾均包含讨论，以总结核心见解，并分析各阶段如何相互作用并贡献于整体系统。其次，我们对自我提升系统进行了更具一般性的讨论（§7 至 §9），包括挑战与局限、应用及未来展望，从更广泛的维度探讨系统整体。此外，尽管本文主要以模型为中心，我们也纳入了关于**自我演化智能体（Self-evolving agents）**的工作，例如在 §5.4 介绍了基于智能体系统的推理时改进，并在 §8 讨论了其跨领域应用。我们认为，从单一阶段向统一自我提升系统的转变，与从独立模型向智能体系统的跨越相互呼应，反映了向更具自主性和交互性的学习系统范式转化的共同趋势。