苹果用户等了3年的本地AI，被这个开源项目截胡了

灰度测试中

2026-04-13 09:27 ·北京

本地跑大模型曾经是极客的专利——显卡要够猛，显存要够大，还得折腾CUDA环境。现在有人把整套方案塞进了一个可执行文件，双击就能跑，连网都不用连。

这个项目叫llamafile，Mozilla旗下团队出品。核心思路简单粗暴：把模型权重和运行环境打包成单个文件，Windows、Mac、Linux通吃。你甚至可以用十年前的笔记本跑7B参数的模型， albeit慢一点。

创始人Justine Tunney的原话很直接：「我们的目标是让本地LLM像打开PDF一样简单。」她之前是Google的SRE，搞过Cosmopolitan Libc——就是那个能让C程序一次编译、到处运行的怪东西。

技术细节有点意思。llamafile用了AVX2指令集做加速，纯CPU跑也能到每秒几个token。没有N卡的用户终于不用被拒之门外，Apple Silicon用户更是意外受益——M系列芯片的内存带宽反而成了优势。

不过别指望它能替代ChatGPT。7B模型写代码还行，复杂推理明显吃力。真正吸引人的是隐私场景：病历、合同、日记本，这些你永远不会往云端传的东西，现在可以关起门来自己处理了。

GitHub Release页面的下载量已经破了百万。有用户在Issue区留言，说他在飞机上用这个写完了季度报告——邻座还在付费买Wi-Fi。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴