记忆评估领域有个硬骨头:LongMemEval-S。500道题,横跨6种认知类型,对话堆栈拉到5万token。测的不是模型多聪明,而是它能不能从自己的历史对话里,把东西找回来、数清楚、按时间理明白。
公开基线挺惨的。Letta 35-38%,Mem0 40-45%,A-MEM 摸到50%,Zep的SOTA区间在55-60%。Compass v0.9报了个56.6%,用的DeepSeek V3.2加本地bge-m3,成本是Zep的十五分之一。
真正扎眼的不是这个数字。是"跨智能体记忆联邦"——同一user_id,Claude Desktop、Cline、Cursor、OpenClaw、Hermes,所有客户端共享同一套记忆。claude-mem做不到,Mem0/Letta/A-MEM/Zep也做不到。
技术拆解五层,按收益排序:
第一层,多角度查询重写,单这一项涨了27分。针对"用户不能吃什么"这类模糊查询,拆成三路人马:直接检索、主题抽取、对话标记,每路取前15条再合并。非ssu类型跳过,不然信号会被稀释。
第二层,多会话分解提示,+8分。LLM被塞进5段以上扁平会话时,数数必错。指令改成"先按会话分解子计数,再聚合",可靠性回来。
后三层是微调:知识更新时间戳提示+2-3分,ssa上下文从2400扩到3500字符+2分,TOP_K 10改到15只加了0.5分。十项增益,经验证可叠加。
负向发现同样被记录。Neo4j图重排序倒扣6.2分——封闭堆栈里信号本就冗余。双模型路由-2.1分,50道题的样本噪声撑不起区分度。SSP"推断偏好"提示崩得最狠,-37.5分,LLM不管问什么都能编出食物相关答案。
MiniMax的thinking-1024模式出了个文献级案例。50题样本45.8%,看着正常;500题全量,拒答率从17%飙到44%,准确率掉到33%。换thinking-8192配rule-6提示,43.8%,还是烂。最后nothink模式45.8%全量通过。这是目前文献里,思考模式导致系统性失败的最强记录。
各模型思考开关消融:Gemini-2.5-pro只有thinking档44.6%;DeepSeek V3.2开thinking涨6.8分,是正向收益最大的;GLM-5.1涨2.1分;Kimi K2.6零变化;MiniMax开thinking直接崩盘。
结论粗暴:每个模型、每个版本,思考模式开不开,必须单独测。别假设。
安装一行:pip install nautilus-compass,或者npx -y @nautilus/compass-mcp。MCP服务器、A2A适配器、npm包装、Nautilus智能体一键集成,0.9版全打包好了。
热门跟贴