本地跑大模型曾经是极客的专利——显卡要够猛,显存要够大,还得折腾CUDA环境。现在有人把整套方案塞进了一个可执行文件,双击就能跑,连网都不用连。

这个项目叫llamafile,Mozilla旗下团队出品。核心思路简单粗暴:把模型权重和运行环境打包成单个文件,Windows、Mac、Linux通吃。你甚至可以用十年前的笔记本跑7B参数的模型, albeit慢一点。

创始人Justine Tunney的原话很直接:「我们的目标是让本地LLM像打开PDF一样简单。」她之前是Google的SRE,搞过Cosmopolitan Libc——就是那个能让C程序一次编译、到处运行的怪东西。

技术细节有点意思。llamafile用了AVX2指令集做加速,纯CPU跑也能到每秒几个token。没有N卡的用户终于不用被拒之门外,Apple Silicon用户更是意外受益——M系列芯片的内存带宽反而成了优势。

不过别指望它能替代ChatGPT。7B模型写代码还行,复杂推理明显吃力。真正吸引人的是隐私场景:病历、合同、日记本,这些你永远不会往云端传的东西,现在可以关起门来自己处理了。

GitHub Release页面的下载量已经破了百万。有用户在Issue区留言,说他在飞机上用这个写完了季度报告——邻座还在付费买Wi-Fi。