苹果工程师花3年搞出的Llamafile

固件更新中

2026-04-13 09:22 ·北京

AI圈有个潜规则：想跑大模型，要么氪金买显卡，要么把数据喂给云厂商。Llamafile的作者Justine Tunney偏不信邪——这位前苹果、Google工程师，花了3年时间把LLM塞进单个可执行文件。

她的解法简单粗暴：把模型权重和运行环境打包成一个文件，双击就能跑。不需要Docker，不需要Python环境，甚至不需要联网。「我们的目标是让AI像MP3一样随处可运行」，Tunney在GitHub文档里写道。

实测数据有点意思。M3 MacBook Air上跑Llama 3.1 8B，速度约15 token/秒；Intel老机器也能凑合用，只是慢到像拨号上网。最狠的是离线场景——飞机、地下室、断网会议室，照样能写代码、改简历、编周报。

代价当然存在。7B模型吃8G内存，70B版本直接劝退16G以下设备。Tunney自己也承认，这玩意儿更适合「不想把聊天记录发给OpenAI的偏执狂」，而非追求性能的发烧友。

GitHub星标数已经冲到1.7万。有用户反馈说，拿它给奶奶装了个离线问答机，「终于不用解释为什么AI要连WiFi才能说话」。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴