用了几个月本地大模型,坦白说,能力比我预想的好,但折腾程度也超预期。性能损失确实有,但 surprisingly 可控——真正烦人的是界面和基础设施。本地模型没有 Claude 那种 polished 的聊天应用,你得用 LM Studio 或 llama.cpp 这类 runner 跑,哪怕带 GUI 的也跟 Claude、Gemini 体验差一截。控制项暴露太多,容易 overwhelm,同时又缺很多 workspace 功能。
最缺的是持久化上下文(persistent context)。Claude 有 Projects,Gemini 有 Gems,能把背景信息和指令自动载入每次对话,不用反复解释。本地 runner 没这功能——每次 session 从零开始,得重新 briefing。但我找到一个 workaround:context journals。
这周我用本地 9B 模型替换了 Claude Pro,终于搞清楚那 20 美元/月买的是什么。差距比想象的小。
这里的 "journal" 不是写日记,而是一份 reference document,构建后喂给模型,让它不再每次从零开始。可以理解为回答那个模型如果能问会问的问题:我在跟谁说话?对方需要什么?我该怎么回应?
里面放模型总搞错或总需要解释的东西:姓名、职业、期望的回复格式、重复纠正过的内容、使用的工具、明确不想要的行为。基本规则:同一件事跟模型说过三遍,就该写进 journal。
模型并不会像云端 AI 那样"记住"这些——它只是在每次 session 开头通过 system prompt 或文档上传获得这些信息,然后据此行动。
把持久化上下文塞进 runner 有两个简单方法。LM Studio 是我的首选,所以以此为例,但核心思路也适用于 Ollama 等其他 GUI runner,步骤略有不同。
最直接的是 presets。在 LM Studio 里,preset 把 system prompt 和参数打包成命名配置,能瞬间载入任意对话。system prompt 是模型在你开口前读的第一样东西,设定 tone、规则、
热门跟贴