56.6%刷新记忆基准，跨客户端记忆共享终于有人做出来了|上下文|堆栈|服务器|自然语言|跨客户端|路由

记忆评估领域有个硬骨头：LongMemEval-S。500道题，横跨6种认知类型，对话堆栈拉到5万token。测的不是模型多聪明，而是它能不能从自己的历史对话里，把东西找回来、数清楚、按时间理明白。

公开基线挺惨的。Letta 35-38%，Mem0 40-45%，A-MEM 摸到50%，Zep的SOTA区间在55-60%。Compass v0.9报了个56.6%，用的DeepSeek V3.2加本地bge-m3，成本是Zep的十五分之一。

真正扎眼的不是这个数字。是"跨智能体记忆联邦"——同一user_id，Claude Desktop、Cline、Cursor、OpenClaw、Hermes，所有客户端共享同一套记忆。claude-mem做不到，Mem0/Letta/A-MEM/Zep也做不到。

技术拆解五层，按收益排序：

第一层，多角度查询重写，单这一项涨了27分。针对"用户不能吃什么"这类模糊查询，拆成三路人马：直接检索、主题抽取、对话标记，每路取前15条再合并。非ssu类型跳过，不然信号会被稀释。

第二层，多会话分解提示，+8分。LLM被塞进5段以上扁平会话时，数数必错。指令改成"先按会话分解子计数，再聚合"，可靠性回来。

后三层是微调：知识更新时间戳提示+2-3分，ssa上下文从2400扩到3500字符+2分，TOP_K 10改到15只加了0.5分。十项增益，经验证可叠加。

负向发现同样被记录。Neo4j图重排序倒扣6.2分——封闭堆栈里信号本就冗余。双模型路由-2.1分，50道题的样本噪声撑不起区分度。SSP"推断偏好"提示崩得最狠，-37.5分，LLM不管问什么都能编出食物相关答案。

MiniMax的thinking-1024模式出了个文献级案例。50题样本45.8%，看着正常；500题全量，拒答率从17%飙到44%，准确率掉到33%。换thinking-8192配rule-6提示，43.8%，还是烂。最后nothink模式45.8%全量通过。这是目前文献里，思考模式导致系统性失败的最强记录。

各模型思考开关消融：Gemini-2.5-pro只有thinking档44.6%；DeepSeek V3.2开thinking涨6.8分，是正向收益最大的；GLM-5.1涨2.1分；Kimi K2.6零变化；MiniMax开thinking直接崩盘。

结论粗暴：每个模型、每个版本，思考模式开不开，必须单独测。别假设。

安装一行：pip install nautilus-compass，或者npx -y @nautilus/compass-mcp。MCP服务器、A2A适配器、npm包装、Nautilus智能体一键集成，0.9版全打包好了。