我在Cursor里跑通了本地大模型，省下的Token够买杯咖啡

像素与芯片

2026-05-24 04:01 ·北京

用Cursor写代码久了，有个数字越来越刺眼：Token。每次提问、拖文件、让AI解释代码，都在烧云服务的额度。忙的时候一天下来，账单涨得比代码行数还快。难的问题值得花钱，但那些 endless little ones 才是日常大头。

所以问题不是"云服务够不够好"，而是"为什么我要为本地就能干完的活付云Token"。我想要Cursor的体验，但不想每敲一行字都盯着用量条。于是我把Cursor接上了Ollama，在本地服务器跑起了 Qwen 2.5 Coder 14B。

隐私算是意外收获：私有仓库、客户代码、内部逻辑全留在自己机器上。省Token才是原始动力，其他都是附赠。

能这么干是因为Ollama直接讲OpenAI的API方言——/v1/models、/v1/chat/completions，全套兼容。任何认OpenAI端点的东西都能指向本地模型，Cursor也不例外。

目标不是彻底抛弃云端，而是把不该花Token的活挪过来。架构设计、跨文件Debug、产品策略这些硬骨头，该用最强的模型还得用，Token花得值。本地模型接管剩下的——解释文件、生成小组件、Review Diff、重构函数、写SQL、清理Prompt——这些占了大部分工作时间，没必要按量计费。

试了一圈才定下来：7B轻快但只能干小活，14B是"硬件跑得动"和"代码写得像样"之间的甜点。官方参数14.7B，原生上下文32768 Token，用YaRN能扩到131072。Cursor太吃上下文了——代码、聊天记录、指令全堆进一个请求，这 headroom 是刚需。

打开网易新闻体验更佳