AI圈有个潜规则:想跑大模型,要么氪金买显卡,要么把数据喂给云厂商。Llamafile的作者Justine Tunney偏不信邪——这位前苹果、Google工程师,花了3年时间把LLM塞进单个可执行文件。

她的解法简单粗暴:把模型权重和运行环境打包成一个文件,双击就能跑。不需要Docker,不需要Python环境,甚至不需要联网。「我们的目标是让AI像MP3一样随处可运行」,Tunney在GitHub文档里写道。

实测数据有点意思。M3 MacBook Air上跑Llama 3.1 8B,速度约15 token/秒;Intel老机器也能凑合用,只是慢到像拨号上网。最狠的是离线场景——飞机、地下室、断网会议室,照样能写代码、改简历、编周报。

代价当然存在。7B模型吃8G内存,70B版本直接劝退16G以下设备。Tunney自己也承认,这玩意儿更适合「不想把聊天记录发给OpenAI的偏执狂」,而非追求性能的发烧友。

GitHub星标数已经冲到1.7万。有用户反馈说,拿它给奶奶装了个离线问答机,「终于不用解释为什么AI要连WiFi才能说话」。