本地大模型终于能记住我了：一个9B参数模型的持久化改造实验

Ping值焦虑

2026-05-14 10:13 ·北京

用了几个月本地大模型，坦白说，能力比我预想的好，但折腾程度也超预期。性能损失确实有，但 surprisingly 可控——真正烦人的是界面和基础设施。本地模型没有 Claude 那种 polished 的聊天应用，你得用 LM Studio 或 llama.cpp 这类 runner 跑，哪怕带 GUI 的也跟 Claude、Gemini 体验差一截。控制项暴露太多，容易 overwhelm，同时又缺很多 workspace 功能。

最缺的是持久化上下文（persistent context）。Claude 有 Projects，Gemini 有 Gems，能把背景信息和指令自动载入每次对话，不用反复解释。本地 runner 没这功能——每次 session 从零开始，得重新 briefing。但我找到一个 workaround：context journals。

这周我用本地 9B 模型替换了 Claude Pro，终于搞清楚那 20 美元/月买的是什么。差距比想象的小。

这里的 "journal" 不是写日记，而是一份 reference document，构建后喂给模型，让它不再每次从零开始。可以理解为回答那个模型如果能问会问的问题：我在跟谁说话？对方需要什么？我该怎么回应？

里面放模型总搞错或总需要解释的东西：姓名、职业、期望的回复格式、重复纠正过的内容、使用的工具、明确不想要的行为。基本规则：同一件事跟模型说过三遍，就该写进 journal。

模型并不会像云端 AI 那样"记住"这些——它只是在每次 session 开头通过 system prompt 或文档上传获得这些信息，然后据此行动。

把持久化上下文塞进 runner 有两个简单方法。LM Studio 是我的首选，所以以此为例，但核心思路也适用于 Ollama 等其他 GUI runner，步骤略有不同。

最直接的是 presets。在 LM Studio 里，preset 把 system prompt 和参数打包成命名配置，能瞬间载入任意对话。system prompt 是模型在你开口前读的第一样东西，设定 tone、规则、

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴