你的AI助手为何总在"失忆"？有人做了个本地记忆层|ai助手|tls|上下文|失忆|工作流|本地记忆层|电子表格|调用

你有没有算过，过去一年里，你向AI重复解释过多少次自己的技术栈？

项目背景、代码规范、个人偏好——每次新开对话窗口，一切归零。这不是你的错，是大语言模型（Large Language Model，大语言模型）的"设计性失忆"。开发者GG-QandV（以下简称GG）受够了这种循环，于是动手做了一个叫Mnemostroma的本地记忆层。它不做任何云同步，不改动你的工作流，却让AI"记得"你是谁。

这听起来像又一个开源玩具？我一开始也这么想。但看完架构设计后，我发现它解决了一个被行业集体回避的真问题：记忆该由谁来写。

一个反直觉的设计：AI只读不写

Mnemostroma的核心机制很朴素——它像一层透明的膜，夹在用户和AI之间。所有对话的输入输出都被静默观察，由后台管道决定什么值得存、怎么压缩、何时召回。用户永远不需要喊"保存"，也不需要写提示词去唤醒记忆。

但真正的设计亮点是权限分割：AI代理（agent，代理）只有读取记忆的权限，写入权限完全剥离给独立的观察管道。

「这个约束出奇地重要，」GG在项目文档中写道，「它意味着记忆层与代理的行为完全解耦，模型无法被'迷惑'而存入垃圾信息。」

这让我想起当前主流方案的问题。无论是OpenAI的Memory功能，还是Claude的Projects，记忆写入都依赖模型自身的判断。而模型——坦白说——并不擅长判断什么值得记住。它会在一次对话里"记住"你随口提到的偏好，也会在下一次彻底遗忘你反复强调的约束。

GG的方案是把记忆当作基础设施，而非模型能力。观察、分类、存储、衰减，全部在模型之外完成。代理拿到的只是经过筛选的结构化上下文，像调用数据库一样调用记忆。

技术实现：420MB内存的"轻量野心"

打开Mnemostroma的技术栈，能看到一种刻意的克制。没有PyTorch，没有Transformers库，没有Docker，没有云端依赖。核心依赖只有NumPy和ONNX Runtime。

语义检索用ONNX INT8量化嵌入（embedding，嵌入向量）配合NumPy矩阵乘法，延迟约20毫秒。五层记忆架构带渐进式衰减：关键决策长期保留，低价值噪声自然淡出。双流异步管道分离观察者和内容处理，RAM优先索引配合SQLite WAL持久化，基线内存占用约420MB。

安装流程也极简：

pip install后直接setup，下载约300MB的ONNX模型，生成TLS证书，然后mnemostroma on即可运行。目前支持Claude Desktop、Claude Code、Cursor、Windsurf、Zed等主流工具，通过MCP（Model Context Protocol，模型上下文协议）协议对接。Claude Code还有特殊的透传代理模式——通过包装器启动IDE，观察者开始捕获而不触碰原有工作流。

版本v1.8.1 beta，400多项测试通过，尚未上架PyPI，只能通过git安装。API表面正在稳定化，破坏性变更可能性低但存在。

隐私设计是本地优先的极端案例：所有数据存放在~/.mnemostroma的纯SQLite文件中，日志子系统仅用于本地延迟诊断，可随时禁用或清除，没有任何数据离开机器。

为什么是现在？记忆层的商业逻辑

这个项目的时机很有意思。2024年以来，AI代理的上下文窗口从8K飙到200K甚至更长，但"长上下文"和"有效记忆"是两回事。模型能吞下整本代码库，却记不住你三周前定的命名规范。

GG在讨论区列出了几个自己" genuinely unsure about"（真诚不确定）的问题，这种坦诚在开源项目中罕见。他想知道：五层衰减模型是否过度设计？INT8量化在复杂检索场景下的精度损失是否可接受？MCP协议成为事实标准的速度有多快？

这些不确定背后，是一个更关键的判断：记忆层应该成为独立的基础设施层，还是附属于某个具体模型或平台？

目前的行业趋势是后者。OpenAI、Anthropic、Google都在把记忆做成封闭生态的粘性组件。Mnemostroma选择了一条更难的路：本地、开源、协议无关。它不绑定任何模型供应商，也不预设任何工作流。

这种定位的风险很明显——没有平台流量扶持，没有默认集成，用户必须主动发现、安装、配置。但潜在回报也更大：如果AI代理真的成为下一代计算范式，记忆层就是操作系统级别的组件，不该被任何单一厂商垄断。

一个被低估的约束：TLS证书和本地daemon

值得注意的技术细节是TLS证书的自动生成。Mnemostroma作为本地daemon（守护进程）运行，却用TLS加密内部通信。这看似多余——本地进程间通信何必加密？

但GG的考虑是MCP协议的未来扩展。MCP设计之初就支持远程服务器，本地TLS为后续可能的分布式架构预留了安全基础。这种"过度设计"在当下是负担，在长期可能是护城河。

另一个细节是"透传代理模式"的IDE集成。不修改Claude Code本身，而是通过包装器劫持进程启动，让观察者零侵入地捕获数据。这种集成思路很聪明：不争取官方合作，而是用系统级钩子实现兼容，把维护成本转嫁给用户的一次性配置。