机器之心发布
随着新一代主动执行型 Agent(如 OpenClaw、Hermes Agent 等)的爆发,AI 正经历从「被动工具」向「具备自我演化(Self-Evolving)能力的智能体」的范式跃迁。然而,受限于上下文窗口极限与记忆缺失,现有 Agent 难以在复杂任务中实现经验的复用与自我进化。
在此关键节点,EverMind 团队重磅公测行业首个专为自我演化智能体设计的记忆底座 ——EverOS。顺应 AI Coding 带来的变革,EverOS 打破传统 Infra 模式,重构为原生适配 Agent 无缝调用的下一代基建。依托入选 ACL 2026 顶会的核心算法与首创的 Skills 进化引擎,EverOS 让 Agent 能从交互中自动提炼技能,将复杂任务成功率最高相对提升 234.8%。
这不仅是一次基建的重塑,更是为 AI 注入持续学习的「数字灵魂」,全面开启智能体的觉醒序章。
更多信息请访问:
- 官网:everos.evermind.ai
- GitHub:https://github.com/EverMind-AI/EverOS
在过去的一年中,大语言模型(LLM)的演进轨迹出现了一个明显的拐点:模型参数量的军备竞赛逐渐放缓,而围绕Harness Engineering 和「记忆机制」(Memory Mechanism)的基建争夺战却愈演愈烈。
从学术界的 Long Context 刷榜,到产业界各种记忆系统框架的层出不穷,整个 AI 行业都在试图基于长期记忆解决一个极其硬核的工程难题:如何让 AI 突破上下文窗口限制,拥有个性化和行为一致性,且自我进化?
尤其是在 OpenClaw 爆火之后,各种能交付结果的主动执行型 Agent 迎来了井喷。然而在浪潮退却后发现,目前的 Agent 们依然面临着诸多痛点:龙虾们依然会在执行多轮任务后,忘记历史指令;过度的 Token 消耗极易触发 Anthropic 等大模型的严格限流甚至封号机制;Agent 需要开发者手把手地「喂养」,无法做到举一反三与自主进化。
更不用提,经常出现的上下文窗口超出限制,面对复杂任务时让人不得不弃用的成功率,以及无法在不同 Agent 实例间无缝复制已学记忆的障碍。
EverMind 是盛大集团旗下专注 AI 长期记忆与认知架构的创新团队,致力于打造具备自我进化能力(Self-Evolving)的主动型个性化 AI。通过突破上下文管理的瓶颈,以极低的成本和高效率赋予 AI Agent 真正的个性化与行为一致性。同时,在用户与 AI、多智能体间(Multi-Agent)的持续交互中,AI Agent 能够跨越单次会话限制,依托持续学习(Continual Learning)等技术实现真正的自我演进。
在这个行业演进的关键节点,EverMind 团队发布重磅更新:长期记忆 Infra 平台 EverOS 品牌升级,同时开启全球公测,致力于成为行业首个专为自我演化型智能体设计的记忆底座(Memory Layer for Self-Evolving Agent)。
这绝非一次常规的工具迭代,而是对 Agent 记忆构建范式的底层重塑。
传统的 Infra 建立在「人机交互」的逻辑之上,依赖人类开发者去啃文档、理解接口。然而,随着以 Claude Code 为代表的工具引发软件开发范式的根本性变革,「AI 编写代码」与「Agent 自主调用」正在成为 Infra 真正需要服务的新一代「用户」。顺应这一趋势,EverOS 完成了从「人类友好」向「Agent 友好」的跃迁。它不仅为开发者提供了构建 Agent 记忆模块的行业最佳实践,更将自身重构为原生面向 AI Coding 和 Agent 间无缝调用的下一代基础设施。
值得注意的是,EverMind 团队的两篇硬核论文《EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning》和《HyperMem: Hypergraph Memory for Long-term Conversations》刚刚双双入选了自然语言处理领域的顶级会议 ACL 2026 主会。
加上不久前爆火出圈的《MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens》论文,从学术到工程全面开花的 EverMind 成为最值得 Agent 开发者持续关注的 AI Memory 方案提供者。
今天,团队将从第一性原理出发,深度拆解理想中的 AI Memory 究竟需要跨越哪些技术鸿沟,以及 EverOS 是如何通过 Skills 自进化等机制,将 OpenClaw 类 Agent 的任务成功率相对提高了 43.1% 和 234.8%。
为什么 AI Memory 突然成为全行业的生死线?
要理解 EverOS 的技术价值,首先需要回答一个问题:为什么 AI Memory 会在当下这个节点突然爆发?
答案藏在三股正在交汇的力量中 —— 技术的天花板、场景的转移、与智能的终极形态:
1. 深度与跨度:Context Window 的物理极限与成本黑洞
随着用户使用 LLM 的深度和时间跨度不断增加,无论是 128K 还是 1M 的上下文窗口,最终都会在海量历史对话、长文档分析和复杂代码库面前败下阵来。
更致命的是成本。每一次 API 调用都要把几万、几十万 Token 的历史记录重新灌给模型,这种 O (N²) 复杂度的 Attention 计算不仅导致首字延迟(TTFT)飙升,更让推理成本变成了填不满的黑洞。单纯靠拉长 Context Window 来解决记忆问题,在工程上是一条注定走不通的死胡同。
2. 执行型 Agent 的爆发:从「聊天框」到「数字同事」的范式转移
以 OpenClaw、Hermes 为代表的执行型 Agent,正将 AI 的定位从「被动回答的百科全书」转变为「主动执行的数字助理」。
当一个 Agent 需要帮你管理日程、回复邮件、甚至在本地环境操作文件时,它必须深度理解你的偏好、习惯和过往行为模式。这种 Personalized AI 的需求,要求 Agent 具备跨越不同任务周期的状态保持能力。
没有长期记忆的 Agent,就像一个每天上班都要重新培训一遍的实习生;而拥有持久记忆的 Agent,则是一个越用越默契的资深助理。
3. 下一代 AI 的使命:实现自我演化(Self-Evolving)
今天的大模型,依赖离线的预训练与后训练来提升能力 —— 模型一旦出厂,智能就此冻结。但生命体的智能从不是这样生长的:它在每一次交互中微调自身,在反馈中重塑行为,在成长中逐步拉开与同类的差距。
我们需要的 AI,必然要能够在与人类的对话、与其他 Agent 的协作、与模拟环境的反复试错中,基于用户与环境的反馈持续演进。而这,恰恰是当前 Agent 赛道最稀缺的壁垒:不是参数规模,也不是工具数量,而是由长期交互沉淀出的数据飞轮。
而 AI 必然会迎来自我演化时代的到来。
第一性原理推演:理想的 Memory 应该长什么样?
如果抛开现有的各种技术框架,从第一性原理出发,一个理想的 AI Memory 系统究竟需要解决哪些硬核问题?
难题一:复杂关联的跨时间推理(不仅是「存」,更要能「联想」)
传统的 RAG 方案本质上是一个「高级书签系统」。它把文本切块(Chunking),算个向量(Embedding),存进数据库。当用户提问时,通过相似度匹配把最相关的几块文本捞出来。
这种方案处理「事实查询」(Fact Retrieval)尚可,但面对需要跨越漫长时间线、进行多跳推理(Multi-hop Reasoning)的复杂关联时,RAG 就会彻底失效。理想的记忆系统必须能够像人类大脑一样,在不同记忆碎片之间建立拓扑连接,实现举一反三的联想。
难题二:从碎片经验到结构化技能的自进化(不仅要能「记」,更要能「学」)
人类学骑自行车,靠的不是把每一次摔倒的物理参数存进大脑,而是把无数次尝试的碎片经验,沉淀成一种可自动调用的程序性记忆(Procedural Memory)。
同样,对执行型 Agent 而言,仅仅堆积每一次 API 调用的日志(Trace)是远远不够的。理想的记忆系统必须具备抽象与泛化能力—— 能从相似的历史任务中自动提炼出可复用的执行蓝图(Skill),在下一次遇到同类任务时直接调用最佳实践,从而实现真正的「自进化」。
难题三:多模态信息的全量摄入与联合检索(不仅懂「字」,更要懂「世界」)
真实世界的信息从来不是纯文本的。一封包含财务报表的邮件、一份带有架构图的 PDF、一张手写的会议白板,这些都是构成完整上下文不可或缺的记忆锚点。
理想的记忆系统必须能够无缝吞吐多模态数据,并且在检索时能够打破模态的壁垒,实现文本与图像、结构化与非结构化数据的联合召回。
难题四:对开发者透明的白盒化管理与权限隔离
记忆是极其私密且敏感的数据。对于开发者而言,一个完全黑盒的记忆引擎是不可接受的。系统必须提供精细的 CRUD(增删改查)接口,允许开发者和用户直观地审查、干预和修正 Agent 的记忆库,同时确保严格的多租户数据隔离。
EverOS 的硬核解法:重构 Agent 记忆底座
面对上述四大技术难题,EverMind 团队没有选择在现有的 RAG 框架上打补丁,而是通过底层架构的创新,不断突破现有技术瓶颈。
让我们深入代码与架构的肌理,看看 EverOS 是如何逐一击破这些痛点的。
1. Self-Evolving Agent Memory:让 OpenClaw 任务成功率飙升的秘密武器
这是 EverOS 公测版最具突破性的核心更新,通过构建一套从经验到技能的自进化管道,让 Agent 像人类一样:做得越多,做得越好。它的核心能力包括:
1)经验自动提取(Agent Case)
每次 Agent 完成任务后,系统自动从对话中提取结构化经验:
- 任务意图(Task Intent):解决了什么问题,作为未来检索的关键词;
- 执行路径(Approach):每一步尝试了什么、结果如何、做了哪些关键决策;
- 关键洞察(Key Insight):成功的转折点策略;
- 质量评分(Quality Score):0.0-1.0 的结果评估。
系统内置智能过滤,自动跳过无价值对话(简单问答、单轮对话),只提取真正有迁移价值的问题解决经验。同时针对超长对话内容(工具调用、代码输出等)进行启发式压缩,确保提取效率。
2)语义聚类(Clustering)
提取的经验不是散落存储,而是通过向量语义聚类自动将相似任务经验归入同一场景,为技能提炼奠定基础。
3)技能自动涌现与自进化(Agent Skill)
系统自动从聚类的经验中蒸馏可复用技能,这是整个系统最核心的自进化机制。技能不是一次生成就固化不变,而是随经验持续进化—— 每一次新的任务执行都可能触发技能的迭代升级,让技能从粗糙走向精炼,从片面走向完整:
- 技能即 SOP:不是模糊建议,而是可执行的标准操作流程。
- 增量式进化:每次新经验到来,通过增量操作精准迭代现有技能,而非全量重写。成功经验强化执行步骤,失败经验补充陷阱警示,技能在实战中不断打磨。
- 成熟度评估:四维评分体系(完整性、可执行性、证据支撑度、清晰度),只有成熟的技能才会被检索使用。技能从「雏形」逐步进化为「成熟可用」,全程有据可循。
- 质量感知提取:高质量经验提取执行步骤,低质量经验提取失败教训和陷阱 —— 无论成败,Agent 都在学习。
- 信心退役机制:置信度持续下降的技能自动退役,避免过时技能误导决策。技能池始终保持鲜活,优胜劣汰。
- 来源可追溯:每个技能保留源 AgentCase ID,支持审计回溯。
这样,在 Agent 使用过程中形成「对话 → 经验提取 → 语义聚类 → 技能涌现 → 检索应用 → 更好的对话 → ...」的进化闭环。从零推理,到经验复用,再到技能驱动 ——Agent 的能力随使用自然生长,成为一套完整的认知进化引擎:从具体经验到抽象技能,从个案记忆到通用能力,Agent 真正实现了自我迭代。
2. mRAG 混合检索架构:跨越模态壁垒的混合召回
针对多模态信息的处理难题,EverOS 推出了一套专门设计的mRAG(Multimodal Retrieval-Augmented Generation)检索策略。
在数据摄入端(Ingestion),EverOS API 新增了对全类型多模态数据的原生解析与存储支持。无论是复杂的「.pdf」(包含图表和排版)「.docx」「.xlsx」,还是各类图像文件(「.png」「.webp」),甚至是网页 URL,开发者都可以通过一个统一的 API 端点直接推送。
在检索端,EverOS 抛弃了简单的稠密向量(Dense Vector)匹配,而是引入了名为「hybrid」的混合检索策略。这套策略在底层融合了:
- 语义向量检索(捕捉深层语义意图);
- 稀疏关键词检索(如 BM25,确保特定术语和命名实体的精确召回);
- 多模态对齐表征(实现「以文搜图」或跨模态的上下文还原)。
这种 mRAG 架构确保了当用户询问「上次会议白板上画的那个架构图里的数据库是用什么方案?」时,Agent 能够精准地从海量多模态记忆中捞出那张关键的图片,并结合当时的会议纪要文本给出准确回答。
3. HyperMem 架构支撑:ACL 顶会关注的超图记忆网络
解决跨时间关联和多跳推理的底气,来自于 EverMind 团队入选 ACL 2026 主会的论文《HyperMem: Hypergraph Memory for Long-term Conversations》。
EverOS 在底层摒弃了扁平的向量数据库结构,而是采用了一种创新的超图(Hypergraph)数据结构来组织记忆节点。在超图中,一条边(Hyperedge)可以同时连接多个节点,这完美契合了真实世界中复杂的多元实体关系。
通过在超图上进行信息传递(Message Passing)和动态路由,EverOS 能够在极低的延迟下,顺藤摸瓜地找出一系列看似独立但逻辑上高度关联的记忆碎片。这种模型级的算法创新,是任何简单的工程封装都无法复制的护城河。
4. 平滑的开发者体验:内测迁移与可视化 Playground
在工程落地层面,EverOS 展现出了极高的成熟度。
为了降低开发者的接入成本,EverOS 提供了极其克制的 RESTful API。针对内测版本的老用户,团队设计了平滑的数据迁移路径,并预留了并存过渡期。
更令人惊喜的是,EverOS Cloud Platform 新增了直观的Playground 模块:
- Coding Playground:直接打通 Google Colab,开发者只需点击运行代码片段(Code Snippet),即可在浏览器中沉浸式体验添加记忆、mRAG 检索、多模态解析等核心 API 的流转过程。
- Chat Playground:一个直观的对比视窗,左侧是裸奔的 LLM,右侧是接入 EverOS 记忆库的 LLM。开发者可以直观地感受到,基于 Onboarding 收集的个人信息,EverOS 是如何让回答变得极具个性化和温度的。
在商业化路径上,EverOS 采用了灵活的 Credit-based 计费模型,将不同维度的资源消耗统一折算为 MCU(Memory Compute Units) 与 Retrieval API Calls,让成本核算清晰透明。公测阶段,每个账户均赠送免费额度,足以覆盖完整的试用体验;对社区有贡献的重度开发者,还可通过官方 Discord 申请扩容。(加入社区:https://discord.com/invite/gYep5nQRZJ)。
EvoAgentBench:量化 Agent 的自进化能力
经常有人问:为什么 OpenClaw 等各类「龙虾」Agent 已经有了记忆系统,为什么还需要 EverOS?
龙虾这类主动型 Agent 无疑代表未来,但目前仍远未成熟 —— 上下文利用效率低、关键信息易丢失、任务成功率偏低等问题普遍存在。为了客观衡量不同龙虾框架的真实效果,EverMind 团队搭建了一套名为 EvoAgentBench 的测评框架,用于评估主动型 Agent 完成任务的能力。
EvoAgentBench 从三个维度展开测试:信息检索(Information Retrieval)、推理与问题分解(Reasoning & Problem Decomposition)、以及软件工程问题解决(Software Engineering)。
通过这套测试,可以横向比较在不同 OpenClaw 框架下,采用与不采用 EverOS Skills 自进化策略时,Agent 在任务成功率与运行轮数上的差异。
团队基于 QWEN3.5 397B 和 27B 模型,测试了 OpenClaw 的任务执行成功率。通过比较第 1 次执行(Base)和相似任务集训练后的进化效果(EverOS Evo),得出了令人振奋的结论:
从测评数据中可以得到四个核心洞察:
1. 工程实战能力进化最为显著,Skills 自进化在经验密集型任务上杠杆效应最大。
在软件工程问题解决能力测试中,基于 27B 模型的 Agent 成功率从 11.5% 跃升至 38.5%,相对提升达 234.8%;397B 模型同样实现了 43.1% 的相对提升(26.9% → 38.5%)。软件工程任务天然依赖多步执行与经验积累 —— 恰恰是 Skills 自进化机制最能发挥杠杆效应的场景。
2. 记忆是比参数量更高效的能力杠杆 —— 小模型 + 好记忆,可追平甚至超越大模型。
在软件工程维度,27B 模型的基础成功率(11.5%)不到 397B 模型(26.9%)的一半。然而经过 EverOS Skills 进化后,27B 直接追平了 397B + EverOS 的满配表现(均为 38.5%)。这意味着在特定场景下,为小模型配备高质量的记忆进化能力,性价比远高于单纯堆叠参数量。
3. 进化不仅提升成功率,还在压缩执行路径,让 Agent「做得对」的同时「做得快」。
在信息检索测试中,397B 模型的任务分解轮次从 36.3 显著降低到 24.3;在推理与问题分解测试中,输出字符数从 33.0k 压缩至 22.4k。Agent 在积累技能后,不再需要反复试错和冗余推理,而是更精准地命中解题路径 —— 这直接意味着更低的 Token 消耗和更快的响应速度。
4. Skills 自进化机制具备跨任务类型的普适性,而非单点突破。
在信息检索(↑33.4%)、推理与问题分解(↑13.5%)、软件工程(↑43.1%)三个维度上,EverOS 对 397B 模型均实现了正向提升。这表明 Skills 自进化并非仅对特定任务有效的「巧合」,而是一套可泛化的认知增强机制 ——Agent 的能力增长不局限于单一领域,而是全面的。
团队目前仍在持续完善针对不同 Benchmark、不同模型和不同 Agent 的任务执行成功率和进化对比测评,并发布完整的 EvoAgentBench 测评框架(详见 https://evermind-ai.github.io/EvoAgentBench/),供开源社区自测。它不是一个静态的快照截图,而是一套可以持续衡量 Agent 进化效果的测评框架,可以完整体现 Agent 的进化轨迹。
AGI 终局:从「瑞士军刀」到「数字灵魂」
当我们跳出代码和 API 的微观视角,重新审视 EverOS 所做的一切,会发现,这不仅是一次技术架构的升级,更是一次关于「AI 究竟应该是什么」的哲学探讨。
17 世纪英国哲学家约翰・洛克(John Locke)在探讨「人格同一性」(Personal Identity)时曾提出一个著名的观点:正是意识(特别是记忆)的连续性,构成了「我」之所以为「我」的核心。
如果没有记忆,昨天的我和今天的我就没有任何关联。
当前的许多大模型,本质上是一把无比锋利、功能齐全的「瑞士军刀」。它什么都能切,什么都能做,但它永远是一把冰冷的工具。你每次拔出它,它都不记得上次为你削过什么苹果。
而赋予 AI 以持续一致、个性化、可进化的记忆,就是在为这把瑞士军刀注入「数字灵魂」。
当 OpenClaw Agent 能够通过 EverOS 的 Skills 引擎,记住你写代码时的缩进强迫症;当它能够通过 mRAG 准确调出你们三个月前共同探讨过的那张架构草图;当它在一次次试错中积累经验,最终形成专属于你的执行蓝图时……
它就不再是一个随时可以被替换的 API 端点,而是一个与你共同经历岁月、拥有默契暗号、真正懂你的数字伙伴。
无论行业热点如何更迭,回顾 EverMind 的技术演进历程,始终沿着通往 AGI 终局的方向推演:从构建长期记忆 benchmark,到突破百 M 上下文,构建端到端持续进化架构,到面向 Agent 的多模态和 skills 自进化能力……当 AGI 来临,我们指挥 Agent 军团为我们工作、生活提供各种服务的时候,也许正是 EverOS 这样一个记忆中枢在为我们提供持续、一致、安全的数字灵魂栖息地。
加入共建:全球征集场景案例与插件贡献
记忆基础设施的边界,永远是由每一位身处一线的开发者共同定义的。
随着 Memory Genesis Competition 2026 的成功举办,EverMind 感受到开发者的参与热情和创新潜力。在 EverOS 公测期间,EverMind 继续开放「全球开发者社区共建计划」。团队深知,最硬核的技术只有在最真实的场景中,才能爆发出最耀眼的火花。
团队诚挚邀请全球开发者、研究人员和极客们加入社区,在以下两个维度进行深度共建:
- 场景案例(Use Cases):利用 EverOS API,在法律文书分析、医疗病历追踪、个性化教育辅导、个人数字助理等垂直领域,构建具备长期记忆的创新应用。
- 插件贡献(Plugin Contributions):为 OpenClaw 等执行型 Agent 开发基于 EverOS 记忆底座的创新插件,拓展 Agent 的执行边界。
为了致敬开源精神与社区力量,EverMind 将在每个季度评选出 5 位 Top Contributor。获奖者不仅将获得丰厚的 EverOS 商业版 Credit 额度奖励,还将享有核心研发团队的专属技术支持通道,其优秀项目更将在 EverMind 官网及全球技术社区获得重点展示与推广。
从短暂的上下文,到永恒的数字记忆。在这个 AI 进化的分水岭上,每个开发者都可以参与其中。
最后,大家只要:
- 访问 EverOS (http://everos.evermind.ai) 注册开发者账号;
- 直接在 Claude Code 中运行:install memory plugin from https://github.com/EverMind-AI/evermem-claude-code;
- 把这句话发给你的 OpenClaw(目前仅限 EverOS 开源本地部署的用户): 帮我安装这个 Skill:https://github.com/EverMind-AI/EverOS/blob/main/methods/evermemos/examples/openclaw-plugin/SKILL.md
即可为你的 Agent 运行第一行「灵魂」代码。
热门跟贴