16个免费LLM接口，1个统一入口，每月17亿token——帮你畅享AI|key|llm接口|provider|token|开源模型|调用|路由

作者：伯衡君

让我帮你打开新世界的大门

开篇寄语

今天刷到一个叫 FreeLLMAPI 的项目。作者一句话介绍自己：一个 OpenAI 兼容的端点。十六个免费 LLM 提供商。每月大约 17 亿 token。

伯衡君第一反应：又一个画饼的。现在 AI 圈的项目，张嘴就是聚合全网，闭嘴就是改变世界，真正能跑起来的没几个。

结果伯衡君花了十分钟把它跑起来。然后……

就愣住了。

这玩意是真的能跑。而且跑得还挺稳。

说点背景。

现在每一个正经的 AI 实验室都提供 free tier——Google 的 Gemini、Groq、Cerebras、NVIDIA、Mistral、OpenRouter、GitHub Models、Cohere、Cloudflare、HuggingFace、智谱 AI、Ollama Cloud……光伯衡君数出来的就有 17 家。

每家都给你塞几百万 token，几万次请求。单个看，确实是个玩具。你拿 Gemini 2.5 Flash 写个摘要还行，拿它跑个长对话，速率限制直接教你做人。

但是！把它们摞在一起呢？

十七个 provider，一百多个模型，每月大约 17 亿 token 的推理容量。

这不是玩具了。这是一个仓库。

问题的关键从来不是免费额度够不够，而是把这些免费额度组织起来太麻烦了。十七个不同的 SDK、十七套不同的速率限制、十七个地方一个请求就可能翻车。

FreeLLMAPI 解决的就是这个麻烦。它把这些接口全部塞到一个统一的 /v1/chat/completions 端点后面。你拿任何 OpenAI 兼容的客户端连上去，它自动帮你路由到当前可用的那个 provider。

一个接口。十六个免费模型。剩下的，交给它。

内容详情

它到底支持多少家？

伯衡君逐一数过，目前支持以下 16 家 provider。

Google：Gemini 2.5 Flash、3.x 预览版
Groq：Llama 3.3、Llama 4、Qwen3
Cerebras：Qwen3 235B
Mistral：Large 3、Medium 3.5、Codestral
OpenRouter：21 个 free-tier 模型
GitHub Models：GPT-4.1、GPT-4o
Cloudflare：Kimi K2、GLM-4.7、GPT-OSS
Cohere：Command R+
Z.ai 智谱：GLM-4.5、GLM-4.7 Flash
NVIDIA：NIM（40 RPM 免费）
HuggingFace：Router、DeepSeek V4、Kimi K2.6
Ollama Cloud：GLM-4.7、Kimi K2
Kilo Gateway：免费路由
Pollinations：GPT-OSS 20B
LLM7：GPT-OSS、Llama 3.1
OVH AI Endpoints：Qwen3.5 397B

再加上一个自定义 provider——你可以指向任意 OpenAI 兼容的 endpoint，比如你本地跑的 llama.cpp、LM Studio、vLLM，都行。

伯衡君觉得最厉害的是 Cloudflare Workers AI。Kimi K2、GLM-4.7 这些模型通过 Cloudflare 的边缘网络分发，延迟低得离谱。

场景一：开发调试

伯衡君把我本地的 OpenAI base_url 改成了 FreeLLMAPI 的地址。然后在本地开发一个 LLM 功能的时候，底层自动路由到不同 provider 的免费模型。开发效率翻倍，费用清零。

说实话，以前我调试一个多轮对话功能，来回调 API，一天下来 token 花了几百万。现在？免费池子随便造。

场景二：模型横向对比

我用同一个 prompt，让 FreeLLMAPI 里的不同模型分别回答，然后人工打分。这个过程挺上头的，像在给一群不同的实习生出同一套题，看谁答得好。

最让我意外的是 Groq 上的 Llama 3.3——那个推理速度，给我惊到了。它不是在生成文本，它是在喷射文本。

架构设计——用心想过的东西

伯衡君仔细看了它的代码，发现有几个设计是真正用心的。

自动故障转移。如果选中的 provider 返回 429 或者超时，router 直接跳过它，把这个 key 标记为冷却状态，然后重试链中的下一个模型。最多尝试 20 次。这意味着你的应用基本感知不到底层任何一个 provider 挂了。

密钥加密存储。API key 用 AES-256-GCM 加密后写进 SQLite，解密只在内存里发生。你的 key 不会被明文躺在磁盘上。

统一 API Key。客户端只跟 FreeLLMAPI 通信，用唯一的 freellmapi- 开头的 bearer token。上游 provider 的 key 永远不会暴露给你的应用。

Sticky Sessions。多轮对话会保持在同一个模型上 30 分钟，避免中途切换模型导致幻觉率飙升。这个细节很关键，很多人做多路由的时候忽略了这一点。

我始终坚信，一个好的技术产品，不在于它功能有多炫酷，而在于它把哪些复杂藏起来了，把哪些简单留给了你。FreeLLMAPI 在这点上做得很好。

我查了各家 ToS——放心，但有限制

伯衡君最担心的部分，是免费的东西往往有一个但是。逐个过了一遍各家 provider 的 ToS：

大多数 provider 的 free tier 允许 API 调用后的正常使用。Google、Groq、Mistral、OpenRouter 这些都没有明确禁止你通过代理聚合他们的免费额度。

有一个例外是 NVIDIA——它的 free tier 明确写了 eval-only（仅用于评估）。这意味着生产环境不能用。但 FreeLLMAPI 的作者很诚实，文档里标注了。没有藏着掖着。

总结一句话：这个项目的设计定位很清晰——"Personal experimentation only"（仅个人实验使用）。它不是用来替你跑生产流量的。但如果你是一个开发者，想在一个统一接口后面探索 16 个不同模型的差异、做个 POC、或者只是不想被任何一个 provider 锁死，那它完全够用。

跑起来有多简单？

真的，就一行命令：

curl -fsSL https://freellmapi.co/install.sh | bash

是的你没看错。就一行。Docker 会自动拉镜像、生成加密 key、启动容器。整个流程大概 2 分钟搞定。

它还有桌面版——macOS 的 dmg 和 Windows 的 exe，直接下载安装。Windows 版第一次跑可能会被 SmartScreen 警告，点更多信息、仍然运行就行了。

支持的语言也很良心：English、中文（简体）、Francais、Espanol、Portugues、Italiano。中文翻译质量不错，没有机翻的味儿。

除了基本的 chat completion，它还支持：

Responses API（Codex CLI 的 wire format）
Anthropic Messages API（Claude Code 和 Anthropic SDK 也能跑）
图片生成（/v1/images/generations）
语音合成（/v1/audio/speech）
Tool calling（OpenAI 风格的工具调用）
Embeddings（向量路由，同模型家族内故障转移）

我认为，最值得关注的是它支持 Anthropic Messages API。这意味着你可以用 Claude Code 直接连到你的免费模型池。

Claude Code 是 Anthropic 推出的 CLI 编程工具，现在通过 FreeLLMAPI，你可以让它调用免费的 Claude 替代模型。这对开发者来说，等于零成本接入一套完整的 AI 编程助手。

篇后寄语

聊到这儿，伯衡君想说说更宏观的感受。

FreeLLMAPI 这个项目，本质上是在做一件很有时代感的事：它证明了免费不再等于玩具。

五年前，你说我用免费 LLM 跑生产，别人会笑你。今天呢？16 个 provider 的免费额度加起来就是每月 17 亿 token。这已经不是一个数量级的小打小闹了。

更有趣的是，它降低了 LLM 的准入门槛。你不需要理解分布式路由、不需要写 17 个 SDK 适配、不需要处理 17 种不同的速率限制策略。把这些全部抽象掉之后，剩下的就一个 /v1/chat/completions。

这跟当年 Docker 把容器底层细节抽象掉、让一个 docker run 解决所有环境问题的思路，是一脉相承的。

基础设施的终点，就是把复杂藏起来，把简单留给你。

当然，它不是万能的。如果你需要的是生产级 SLA、按用户计费、或者更复杂的编排能力，那它不适合你。

但是！如果你是一个对世界保持好奇的开发者，想在一个统一的接口后面薅遍所有能薅的免费 LLM，想看看 100 多个模型到底各有什么脾气——那这个项目的价值，我觉得可以用两个字概括：

真香。

体验地址

在线模型目录浏览：freellmapi.co

可以浏览所有支持的模型、查看实时额度信息。

项目地址

GitHub：https://github.com/tashfeenahmed/freellmapi
Docker 镜像：ghcr.io/tashfeenahmed/freellmapi:latest

桌面版安装：GitHub 对应的Releases 页面可以

概念释义

OpenAI 兼容 API：想象它是快递中转站。OpenAI 定了一套快递标准（API 格式），任何快递公司（LLM provider）只要按这个标准打包货物（模型能力），你的客户（开发者）就不需要分别去每家快递点寄件——直接交给中转站，中转站自动帮你分发到最近的、最合适的快递公司。FreeLLMAPI 就是这个中转站。

Sticky Sessions：就像你去了一家理发店，理了一个满意的发型。下次去的时候，如果换了另一个理发师，可能就不太习惯。Sticky Sessions 就是确保你在 30 分钟内一直和同一个理发师（模型）对话，避免因为中途切换导致的体验下降。

Fallback Chain：就像你上班有多条路线可以选择。如果 A 路堵车了，自动切换到 B 路；B 路也堵，再切 C 路。FreeLLMAPI 就是那个实时导航，确保你的请求始终能找到畅通的道路。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送黑科技，敬请关注行运设计师⭐~