这项由上海交通大学人工智能学院、Eigen AI公司、DP Technology以及北京航空航天大学计算机学院联合完成的研究发表于2026年1月,论文编号为arXiv:2601.10402v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
想象你正在培养一个学生,希望他能够独立完成一个需要数天甚至数周才能完成的复杂项目。这个学生很聪明,能够快速理解和解决短期问题,但一旦任务变得复杂且耗时很长,他就会被各种细节淹没,逐渐失去方向感,最终无法完成任务。这正是当前人工智能面临的核心挑战。
研究团队发现,现有的大型语言模型虽然在短期推理方面表现出色,但在需要持续几天或几周的复杂任务中却经常"迷失方向"。就像一个人试图同时记住所有的购物清单、电话号码和工作安排一样,AI系统会被大量的执行细节压垮,无法保持长期的战略思维。
这个问题在科学研究领域尤为突出。真正的科学发现往往需要经历无数次试验、失败、调整和重新尝试的循环过程。一个AI科学家需要能够从失败中学习,将短期的实验结果转化为长期的研究策略,并且在面对挫折时仍能保持清晰的研究方向。这就像要求一个侦探不仅要记住每一个细节线索,还要能够从混乱的信息中提取出关键模式,形成破案的整体策略。
为了解决这个问题,研究团队开发了ML-Master 2.0系统,这是一个能够进行超长时间自主学习的AI agent。他们将这个挑战称为"超长时间自主性"问题,指的是AI系统需要在长达数天或数周的时间内保持战略一致性和迭代修正能力,而不被执行细节所困扰。
研究团队选择了机器学习工程作为他们的测试领域,因为这个领域既具有科学研究的复杂性,又能提供快速的反馈。他们使用了OpenAI的MLE-Bench基准测试,这个测试包含75个真实的Kaggle机器学习竞赛任务,每个任务都需要AI系统在24小时内独立完成从数据分析到模型训练再到结果提交的完整流程。
一、认知积累:重新定义AI的学习方式
传统的AI系统就像一个只会死记硬背的学生,试图将所有遇到的信息都原样保存在"记忆"中。随着时间推移,这种方法会导致信息过载,系统变得越来越混乱。研究团队提出了一个全新的概念叫做"认知积累",这就像人类学习的过程一样。
当我们学习一项新技能时,比如学习驾驶汽车,我们不会试图记住每一次转弯的具体细节。相反,我们会经历三个阶段的认知转化。首先是"经验阶段",我们会仔细记住每一个动作的细节,比如方向盘要转多少度、什么时候踩刹车等等。然后是"知识阶段",经过反复练习后,我们开始形成一些稳定的驾驶原则,比如"在雨天要保持更大的跟车距离"。最后是"智慧阶段",这些知识进一步抽象化,形成可以应用到各种情况的通用驾驶智慧。
ML-Master 2.0的认知积累过程也遵循这样的三个层次。系统首先会产生大量的原始经验数据,包括代码执行结果、错误信息、调试过程等等。这些经验数据就像驾驶新手需要记住的每一个具体动作。然后,系统会将那些经过验证的、有用的经验提炼成稳定的知识,比如"使用这种数据预处理方法会提高模型性能"。最后,这些知识会进一步抽象化,形成可以跨任务使用的通用智慧,比如"在处理图像分类任务时,数据增强通常是有效的"。
这种认知积累的关键在于结构化的信息演化。不是简单地保留更多信息,而是让信息在时间维度上发生质的变化。短期经验支持即时决策,相对稳定的知识保持长期战略的一致性,而高度抽象的智慧则实现跨任务的迁移和复用。
二、分层认知缓存:借鉴计算机系统的智慧
研究团队意识到,他们面临的问题与计算机系统设计中的一个经典挑战非常相似。计算机不能无限制地保留所有数据,必须要有一套有效的策略来决定哪些信息保留在快速访问的内存中,哪些信息存储到较慢但容量更大的硬盘上。
受到这种多级缓存系统的启发,研究团队设计了分层认知缓存架构,将AI的认知状态分为三个层次。第一层是"演化经验缓存",就像计算机的高速缓存一样,存储着当前最需要的高保真度执行轨迹。这包括当前的研究计划、代码补丁和终端输出等信息。这一层的信息更新频繁,为即时推理提供精确的调试和决策支持。
第二层是"精炼知识缓存",类似于计算机的主内存,存储着从完整的探索阶段中提炼出来的稳定认知。比如关键的判断结论、实验洞察以及去除冗余细节的进展摘要等。这一层充当着AI的中期战略记忆,在迭代试错过程中维持一致性。
第三层是"先验智慧缓存",相当于计算机的持久存储,保存着从之前解决的机器学习任务中提取出来的任务无关、可迁移的策略。包括稳健的模型模板、可重用的预处理流程和稳定的超参数先验等。这一层作为AI的长期记忆,实现跨任务的迁移学习。
每个缓存层在不同的时间尺度上发挥作用。演化经验支持当前的代码执行和调试,精炼知识维持研究阶段的战略连贯性,先验智慧则提供任务启动时的强大初始化能力。这种明确的分离使得快速变化的信号能够保持在活跃循环附近,同时将稳定、可重用的认知逐步整合到持久的记忆结构中。
三、上下文迁移:信息的智能流动管理
仅仅有分层的存储结构还不够,更重要的是要有一套智能的机制来管理信息在不同层次之间的流动。研究团队设计了一个叫做"上下文迁移"的机制,这就像一个智能的图书管理员,知道什么时候该把哪些书从阅览室移到书库,什么时候该把重要的参考资料调回到手边。
这个机制包含三个关键操作。首先是"上下文预取",就像在开始新任务前先准备好相关的参考资料。当AI开始处理一个新的机器学习任务时,系统会根据任务描述从先验智慧缓存中检索相关的策略和经验。这个过程使用语义嵌入和相似度匹配来找到最相关的智慧,确保AI能够站在巨人的肩膀上开始新的探索。
其次是"上下文命中",这是一个缓存式的检索策略。当AI需要历史信息时,系统会优先从高频访问的演化经验缓存中获取原始事件,只有当信息不在当前缓存中时,才会回退到精炼知识缓存中的压缩摘要。这种策略确保了AI能够获得最相关和最详细的信息来支持当前的推理。
最后是"上下文提升",这是整个系统的核心创新。随着并行探索的进行,部分上下文变得对即时任务不那么重要,但仍然具有长期价值。上下文提升操作会执行基于大型语言模型的回顾性抽象,将执行轨迹压缩成简洁的知识单元或可迁移的智慧。
这个提升过程分为两个层次。阶段级提升会在每个探索阶段完成后,将原始的并行探索轨迹压缩成精炼的知识摘要。任务级提升则在整个任务完成后,从结构化的任务历史中提炼出可迁移的智慧。通过这种方式,瞬时的执行级上下文被逐步结晶化为持久的、可检索的智慧,完成了认知积累的循环。
四、实验验证:突破性的性能提升
为了验证这种方法的有效性,研究团队在OpenAI的MLE-Bench基准测试上进行了全面的实验。这个基准测试包含75个真实的Kaggle机器学习竞赛,涵盖了从简单到复杂的各种任务。每个AI系统都有24小时的时间来独立完成整个机器学习流程,从理解任务描述到最终提交结果。
实验结果令人印象深刻。ML-Master 2.0在整体奖牌率上达到了56.44%,这意味着它在超过一半的任务中都能达到铜牌、银牌或金牌水平的性能。与之前的最佳方法相比,这代表了92.7%的相对提升,这是一个相当显著的进步。
更重要的是,ML-Master 2.0在所有难度级别的任务上都表现出色。在低复杂度任务上,性能从48.48%提升到75.76%。在中等复杂度任务上,从20.18%提升到50.88%。即使在高复杂度任务上,也从24.44%提升到42.22%。这种全面的提升表明,认知积累方法确实能够帮助AI系统更好地处理各种类型的长期任务。
研究团队还进行了详细的消融研究,分别测试了分层认知缓存架构中每个组件的贡献。结果显示,每个组件都发挥着不可替代的作用。当移除演化经验缓存时,系统失去了迭代交互和代码改进的能力,有效提交率从95.5%下降到54.5%,奖牌率从72.7%下降到22.7%。这强调了演化经验在处理超长时间任务时的基础性作用。
当移除精炼知识缓存时,虽然系统仍能保持原始上下文的平均性能,但奖牌率有所下降,表明精炼知识对于合成达到顶级性能所需的复杂解决方案是不可或缺的。当移除先验智慧缓存时,中位数以上的比率和奖牌率都出现了下降,说明先验智慧提供了强有力的初始化,大大减少了无效探索。
五、上下文长度的有效控制
研究团队还展示了他们的方法如何有效地控制上下文长度的增长。在处理一个名为"random-acts-of-pizza"的复杂任务时,如果没有干预,上下文长度会在复杂任务中快速增长,特别是当需要调试来处理终端输出中的错误时,长度会超过200,000个token。
然而,在分层认知缓存架构的帮助下,ML-Master 2.0有效地将峰值上下文长度限制在大约70,000个token,同时仍然保留了先前失败尝试的关键洞察。更重要的是,系统成功地在研究计划提议和验证的第四次迭代中获得了奖牌,展示了其在长期探索中的有效性。
这种上下文长度的控制不仅仅是为了技术上的效率,更重要的是它反映了认知积累的本质。系统不是简单地丢弃信息来减少上下文长度,而是通过智能的抽象和压缩,将有价值的经验转化为更紧凑但同样有用的知识形式。
六、持续改进的学习能力
研究团队的实验还显示,ML-Master 2.0具有真正的持续学习能力。随着时间的推移,系统的解决方案质量持续改进。在时间-性能曲线上可以清楚地看到,随着迭代时间的增加,ML-Master 2.0产出的解决方案质量越来越好,证明了其分层认知缓存架构的有效性。
这种持续改进的能力源于系统能够从每次探索中学习并积累经验。不像传统的AI系统在每次任务开始时都要从零开始,ML-Master 2.0能够建立在之前的经验基础上,形成一个不断增长的智慧库。每完成一个任务,系统就会提取出可迁移的智慧,这些智慧会在未来的任务中发挥作用。
七、技术实现的精妙设计
在技术实现层面,研究团队展现出了精妙的设计思维。他们将整个交互过程形式化为一个离散事件序列,其中环境产生的事件和智能体产生的事件交替出现。这种形式化为系统的设计和分析提供了清晰的理论基础。
系统引入了阶段级的时间结构,由分层研究规划引起。智能体周期性地提出分层研究计划,其执行定义了一个连续的探索阶段。这种阶段化的设计使得系统能够在不同的时间尺度上进行规划和执行,既保持了短期执行的灵活性,又维持了长期战略的一致性。
在上下文构建方面,系统采用了一种类似缓存的命中策略,优先从演化经验缓存中检索原始事件,只有当信息不可用时才回退到精炼知识缓存中的压缩摘要。这种策略确保了AI能够获得最相关和最详细的信息来支持当前的推理,同时避免了上下文饱和。
八、与现有方法的对比优势
ML-Master 2.0相比于现有方法有几个显著的优势。首先,它从根本上改变了上下文管理的范式,从线性保留转向认知积累。现有的方法主要关注上下文管理的资源分配方面,重点在于信息存储的位置和检索方式,但缺乏对信息如何随时间演化的明确建模。
其次,ML-Master 2.0提供了一个统一的控制过程,协调短期工作上下文、累积执行经验和抽象记忆之间的交互。大多数现有工作将层次化组织和经验抽象作为独立的设计维度来探索,而ML-Master 2.0将它们联合规范在一个统一的框架中。
再次,系统具有明确的策略来管理记忆增长和生命周期。现有方法通常缺乏结构化的策略来控制原始交互轨迹何时应该被累积、提升或删除,这限制了上下文管理同时支持可扩展执行和持续适应的能力。
九、广阔的应用前景
虽然研究团队选择机器学习工程作为测试领域,但认知积累的概念和分层认知缓存的架构具有广阔的应用前景。这种方法可以扩展到任何需要长期自主探索的领域,包括科学研究、软件开发、创意设计等等。
在科学研究领域,AI科学家可以使用这种方法来进行长期的假设验证和理论探索。系统能够从失败的实验中学习,积累对特定研究领域的深度理解,并将这种理解应用到新的研究问题中。
在软件开发领域,AI程序员可以使用认知积累来处理复杂的软件项目。系统能够从调试过程中学习,积累对特定代码库和编程模式的理解,并在面对新的开发任务时应用这些经验。
在创意设计领域,AI设计师可以使用这种方法来进行长期的创意探索。系统能够从设计迭代中学习,积累对特定设计风格和用户需求的理解,并将这种理解转化为可重用的设计智慧。
十、面向未来的思考
ML-Master 2.0的成功不仅仅是一个技术突破,更重要的是它为AI向真正的自主科学探索迈进提供了一个可扩展的蓝图。研究团队证明了超长时间自主性是实现能够超越人类先例复杂性的自主探索AI的关键能力。
当前的大型语言模型虽然在短期推理方面表现出色,但在需要持续几天或几周的复杂任务中往往力不从心。ML-Master 2.0的认知积累方法为解决这个根本性挑战提供了一条可行的路径。
研究团队的工作表明,真正的AI自主性不是简单地增加计算资源或扩大模型规模,而是要重新思考AI系统如何管理和演化其认知状态。通过将瞬时执行与长期实验策略解耦,AI系统能够有效克服静态上下文窗口的限制,实现真正的长期学习和适应。
这项研究为构建能够进行自主探索的AI系统奠定了理论和实践基础。随着这种方法的进一步发展和完善,我们有理由期待看到更多能够独立进行科学发现、技术创新和创意探索的AI系统出现。这些系统不仅能够处理人类定义的任务,更能够主动发现和探索全新的问题域,推动人类知识的边界不断扩展。
说到底,ML-Master 2.0展示的不仅仅是一个更强大的AI系统,而是一种全新的AI能力范式。它证明了AI系统可以像人类专家一样,通过长期的实践和反思来积累智慧,并将这种智慧应用到新的挑战中。这种能力的实现标志着我们向构建真正智能的人工智能系统迈出了重要的一步。未来,这种认知积累的方法可能会成为所有需要长期自主能力的AI系统的标准配置,从而开启一个AI能够独立进行复杂探索和创新的新时代。
Q&A
Q1:ML-Master 2.0的认知积累是如何工作的?
A:认知积累类似于人类学习的过程,分为三个阶段。首先是经验阶段,系统仔细记录每个执行细节;然后是知识阶段,将验证有效的经验提炼成稳定原则;最后是智慧阶段,形成可跨任务应用的通用智慧。这种结构化演化让AI不是简单堆积信息,而是让信息在时间维度上发生质变。
Q2:分层认知缓存架构与传统AI记忆管理有什么区别?
A:传统AI试图保留所有遇到的信息,导致信息过载。分层认知缓存借鉴计算机系统设计,将认知分为三层:演化经验缓存存储当前高频使用的执行轨迹,精炼知识缓存保存从完整探索中提炼的稳定认知,先验智慧缓存储存可跨任务迁移的通用策略。每层在不同时间尺度发挥作用,避免了信息混乱。
Q3:ML-Master 2.0在MLE-Bench上的表现如何?
A:ML-Master 2.0在MLE-Bench基准测试中取得了56.44%的奖牌率,相比之前最佳方法实现了92.7%的相对提升。更重要的是,它在所有难度级别都表现出色:低复杂度任务从48.48%提升到75.76%,中等复杂度从20.18%提升到50.88%,高复杂度从24.44%提升到42.22%。
热门跟贴