作者:伯衡君

打开网易新闻 查看精彩图片

让我帮你打开新世界的大门

打开网易新闻 查看精彩图片

开篇寄语

今天刷到一个叫 FreeLLMAPI 的项目。作者一句话介绍自己:一个 OpenAI 兼容的端点。十六个免费 LLM 提供商。每月大约 17 亿 token。

伯衡君第一反应:又一个画饼的。现在 AI 圈的项目,张嘴就是聚合全网,闭嘴就是改变世界,真正能跑起来的没几个。

结果伯衡君花了十分钟把它跑起来。然后……

就愣住了。

这玩意是真的能跑。而且跑得还挺稳。

说点背景。

现在每一个正经的 AI 实验室都提供 free tier——Google 的 Gemini、Groq、Cerebras、NVIDIA、Mistral、OpenRouter、GitHub Models、Cohere、Cloudflare、HuggingFace、智谱 AI、Ollama Cloud……光伯衡君数出来的就有 17 家。

每家都给你塞几百万 token,几万次请求。单个看,确实是个玩具。你拿 Gemini 2.5 Flash 写个摘要还行,拿它跑个长对话,速率限制直接教你做人。

但是!把它们摞在一起呢?

十七个 provider,一百多个模型,每月大约 17 亿 token 的推理容量。

这不是玩具了。这是一个仓库。

问题的关键从来不是免费额度够不够,而是把这些免费额度组织起来太麻烦了。十七个不同的 SDK、十七套不同的速率限制、十七个地方一个请求就可能翻车。

FreeLLMAPI 解决的就是这个麻烦。它把这些接口全部塞到一个统一的 /v1/chat/completions 端点后面。你拿任何 OpenAI 兼容的客户端连上去,它自动帮你路由到当前可用的那个 provider

一个接口。十六个免费模型。剩下的,交给它。

内容详情

打开网易新闻 查看精彩图片

它到底支持多少家?

打开网易新闻 查看精彩图片

伯衡君逐一数过,目前支持以下 16 家 provider。

  • Google:Gemini 2.5 Flash、3.x 预览版
  • Groq:Llama 3.3、Llama 4、Qwen3
  • Cerebras:Qwen3 235B
  • Mistral:Large 3、Medium 3.5、Codestral
  • OpenRouter:21 个 free-tier 模型
  • GitHub Models:GPT-4.1、GPT-4o
  • Cloudflare:Kimi K2、GLM-4.7、GPT-OSS
  • Cohere:Command R+
  • Z.ai 智谱:GLM-4.5、GLM-4.7 Flash
  • NVIDIA:NIM(40 RPM 免费)
  • HuggingFace:Router、DeepSeek V4、Kimi K2.6
  • Ollama Cloud:GLM-4.7、Kimi K2
  • Kilo Gateway:免费路由
  • Pollinations:GPT-OSS 20B
  • LLM7:GPT-OSS、Llama 3.1
  • OVH AI Endpoints:Qwen3.5 397B

再加上一个自定义 provider——你可以指向任意 OpenAI 兼容的 endpoint,比如你本地跑的 llama.cpp、LM Studio、vLLM,都行。

伯衡君觉得最厉害的是 Cloudflare Workers AI。Kimi K2、GLM-4.7 这些模型通过 Cloudflare 的边缘网络分发,延迟低得离谱。

场景一:开发调试

伯衡君把我本地的 OpenAI base_url 改成了 FreeLLMAPI 的地址。然后在本地开发一个 LLM 功能的时候,底层自动路由到不同 provider 的免费模型。开发效率翻倍,费用清零。

说实话,以前我调试一个多轮对话功能,来回调 API,一天下来 token 花了几百万。现在?免费池子随便造。

场景二:模型横向对比

我用同一个 prompt,让 FreeLLMAPI 里的不同模型分别回答,然后人工打分。这个过程挺上头的,像在给一群不同的实习生出同一套题,看谁答得好。

最让我意外的是 Groq 上的 Llama 3.3——那个推理速度,给我惊到了。它不是在生成文本,它是在喷射文本。

架构设计——用心想过的东西

伯衡君仔细看了它的代码,发现有几个设计是真正用心的。

自动故障转移。如果选中的 provider 返回 429 或者超时,router 直接跳过它,把这个 key 标记为冷却状态,然后重试链中的下一个模型。最多尝试 20 次。这意味着你的应用基本感知不到底层任何一个 provider 挂了。

密钥加密存储。API key 用 AES-256-GCM 加密后写进 SQLite,解密只在内存里发生。你的 key 不会被明文躺在磁盘上。

统一 API Key。客户端只跟 FreeLLMAPI 通信,用唯一的 freellmapi- 开头的 bearer token。上游 provider 的 key 永远不会暴露给你的应用。

Sticky Sessions。多轮对话会保持在同一个模型上 30 分钟,避免中途切换模型导致幻觉率飙升。这个细节很关键,很多人做多路由的时候忽略了这一点。

我始终坚信,一个好的技术产品,不在于它功能有多炫酷,而在于它把哪些复杂藏起来了,把哪些简单留给了你。FreeLLMAPI 在这点上做得很好。

我查了各家 ToS——放心,但有限制

伯衡君最担心的部分,是免费的东西往往有一个但是。逐个过了一遍各家 provider 的 ToS:

大多数 provider 的 free tier 允许 API 调用后的正常使用。Google、Groq、Mistral、OpenRouter 这些都没有明确禁止你通过代理聚合他们的免费额度。

有一个例外是 NVIDIA——它的 free tier 明确写了 eval-only(仅用于评估)。这意味着生产环境不能用。但 FreeLLMAPI 的作者很诚实,文档里标注了。没有藏着掖着。

总结一句话:这个项目的设计定位很清晰——"Personal experimentation only"(仅个人实验使用)。它不是用来替你跑生产流量的。但如果你是一个开发者,想在一个统一接口后面探索 16 个不同模型的差异、做个 POC、或者只是不想被任何一个 provider 锁死,那它完全够用。

跑起来有多简单?

真的,就一行命令:

curl -fsSL https://freellmapi.co/install.sh | bash

是的你没看错。就一行。Docker 会自动拉镜像、生成加密 key、启动容器。整个流程大概 2 分钟搞定。

它还有桌面版——macOS 的 dmg 和 Windows 的 exe,直接下载安装。Windows 版第一次跑可能会被 SmartScreen 警告,点更多信息、仍然运行就行了。

支持的语言也很良心:English、中文(简体)、Francais、Espanol、Portugues、Italiano。中文翻译质量不错,没有机翻的味儿。

除了基本的 chat completion,它还支持:

  • Responses API(Codex CLI 的 wire format)
  • Anthropic Messages API(Claude Code 和 Anthropic SDK 也能跑)
  • 图片生成(/v1/images/generations)
  • 语音合成(/v1/audio/speech)
  • Tool calling(OpenAI 风格的工具调用
  • Embeddings(向量路由,同模型家族内故障转移)

我认为,最值得关注的是它支持 Anthropic Messages API。这意味着你可以用 Claude Code 直接连到你的免费模型池。

Claude Code 是 Anthropic 推出的 CLI 编程工具,现在通过 FreeLLMAPI,你可以让它调用免费的 Claude 替代模型。这对开发者来说,等于零成本接入一套完整的 AI 编程助手。

篇后寄语

聊到这儿,伯衡君想说说更宏观的感受。

FreeLLMAPI 这个项目,本质上是在做一件很有时代感的事:它证明了免费不再等于玩具。

五年前,你说我用免费 LLM 跑生产,别人会笑你。今天呢?16 个 provider 的免费额度加起来就是每月 17 亿 token。这已经不是一个数量级的小打小闹了。

更有趣的是,它降低了 LLM 的准入门槛。你不需要理解分布式路由、不需要写 17 个 SDK 适配、不需要处理 17 种不同的速率限制策略。把这些全部抽象掉之后,剩下的就一个 /v1/chat/completions。

这跟当年 Docker 把容器底层细节抽象掉、让一个 docker run 解决所有环境问题的思路,是一脉相承的。

基础设施的终点,就是把复杂藏起来,把简单留给你。

当然,它不是万能的。如果你需要的是生产级 SLA、按用户计费、或者更复杂的编排能力,那它不适合你。

但是!如果你是一个对世界保持好奇的开发者,想在一个统一的接口后面薅遍所有能薅的免费 LLM,想看看 100 多个模型到底各有什么脾气——那这个项目的价值,我觉得可以用两个字概括:

真香。

体验地址

在线模型目录浏览:freellmapi.co

可以浏览所有支持的模型、查看实时额度信息。

项目地址

  • GitHub:https://github.com/tashfeenahmed/freellmapi
  • Docker 镜像:ghcr.io/tashfeenahmed/freellmapi:latest

桌面版安装:GitHub 对应的Releases 页面可以

概念释义

OpenAI 兼容 API:想象它是快递中转站。OpenAI 定了一套快递标准(API 格式),任何快递公司(LLM provider)只要按这个标准打包货物(模型能力),你的客户(开发者)就不需要分别去每家快递点寄件——直接交给中转站,中转站自动帮你分发到最近的、最合适的快递公司。FreeLLMAPI 就是这个中转站。

Sticky Sessions:就像你去了一家理发店,理了一个满意的发型。下次去的时候,如果换了另一个理发师,可能就不太习惯。Sticky Sessions 就是确保你在 30 分钟内一直和同一个理发师(模型)对话,避免因为中途切换导致的体验下降。

Fallback Chain:就像你上班有多条路线可以选择。如果 A 路堵车了,自动切换到 B 路;B 路也堵,再切 C 路。FreeLLMAPI 就是那个实时导航,确保你的请求始终能找到畅通的道路。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送黑科技,敬请关注行运设计师⭐~