放弃LM Studio后，我的本地大模型反而更快了|lm|studio|大模型|工作流|运行器

LM Studio曾是我运行本地大模型的默认选择，从最初尝试到成为日常工作流的一部分，已经用了相当长的时间。它的吸引力很直接：有图形界面、一键安装、不用折腾命令行。开发不是我的领域，连终端都用不惯，一个用户友好的运行器让我第一次对自托管AI感到安心。

但随着越来越依赖本地模型处理那些不想让云端聊天机器人碰的数据，我开始撞上LM Studio的能力天花板。有些模型在它里面运行不太正常，一些新模型的旗舰功能因此用不上，因为运行器还没支持。一位同事早前跟我提过llama.cpp，我起初把它归为"开发者专用"，直到终于尝试后才发现，自己一直把自己挡在了一个比想象中友好得多的工具门外。

我对llama.cpp的误解持续了很久。在我脑海里，它是那种"真懂行才能用"的选项。每次刷到的安装教程一开头就是编译器安装，我页面还没加载完就关掉了。但实际情况完全不是这样。GitHub的releases页面直接提供Windows、Mac、Linux的预编译二进制文件，还按硬件分好了版本。下载、解压、终端里跑一条命令，五分钟搞定。

llama.cpp是Georgi Gerganov在2023年3月Meta开源LLaMA权重后开发的C++运行时。实际上，LM Studio、Ollama这些主流本地AI应用的核心后端都是它——它们本质上只是套了个壳。直接用它等于砍掉中间商。它还自带llama-server和内置网页UI，浏览器打开就能聊，界面干净。

相比图形界面运行器，llama.cpp有实打实的优势。包装层会带来开销，同样的模型同样的硬件，llama.cpp比LM Studio快5%到20%，具体取决于配置。作为上游项目，它通常最先支持新模型，LM Studio和Ollama得等更新周期，而你可以直接用最新的开源权重，不用干等运行器跟进。

不过Ollama依然是入门本地大模型最省事的方案，只是它...