用Cursor写代码久了,有个数字越来越刺眼:Token。每次提问、拖文件、让AI解释代码,都在烧云服务的额度。忙的时候一天下来,账单涨得比代码行数还快。难的问题值得花钱,但那些 endless little ones 才是日常大头。

所以问题不是"云服务够不够好",而是"为什么我要为本地就能干完的活付云Token"。我想要Cursor的体验,但不想每敲一行字都盯着用量条。于是我把Cursor接上了Ollama,在本地服务器跑起了 Qwen 2.5 Coder 14B。

打开网易新闻 查看精彩图片

隐私算是意外收获:私有仓库、客户代码、内部逻辑全留在自己机器上。省Token才是原始动力,其他都是附赠。

能这么干是因为Ollama直接讲OpenAI的API方言——/v1/models、/v1/chat/completions,全套兼容。任何认OpenAI端点的东西都能指向本地模型,Cursor也不例外。

目标不是彻底抛弃云端,而是把不该花Token的活挪过来。架构设计、跨文件Debug、产品策略这些硬骨头,该用最强的模型还得用,Token花得值。本地模型接管剩下的——解释文件、生成小组件、Review Diff、重构函数、写SQL、清理Prompt——这些占了大部分工作时间,没必要按量计费。

试了一圈才定下来:7B轻快但只能干小活,14B是"硬件跑得动"和"代码写得像样"之间的甜点。官方参数14.7B,原生上下文32768 Token,用YaRN能扩到131072。Cursor太吃上下文了——代码、聊天记录、指令全堆进一个请求,这 headroom 是刚需。