爆炒小龙虾——低成本实战之三：接入Nvidia免费模型

我不叫阿哏

2026-02-18 09:50 ·广东

Token耗尽/429错误之痛

OpenClaw 支持多种免费/低成本模型来源，但glm-5实践下来，模型token动不动耗尽，限额较小，不顶用。

财大气粗的nvidia通过同一套api key提供多个模型，免费额度据说是40次调用/分钟，看起来配置更简便，额度也更友好。忽略来源多样的免费/低成本模型，此番先考虑介入nvidia提供的模型，看看效果再说。

nvidia端提供免费无限模型额度

Nvidia可用免费模型清单

模型 ID

厂商

特点

上下文长度

z-ai/glm5

智谱 AI

国产顶级，综合能力强

128K

moonshotai/kimi-k2.5

月之暗面

长文本专家

256K

stepfun-ai/step-3.5-flash

阶跃星辰

极速响应

32K

minimaxai/minimax-m2.1

MiniMax

多模态支持

100K

deepseek-ai/deepseek-v3

DeepSeek

推理能力突出

64K

Meta/llama-3.3-70b-instruct

Meta

开源最强

128K

mistralai/mistral-large

Mistral

欧洲最强

128K

qwen/qwen2.5-72b-instruct

阿里巴巴

代码能力强

128K

google/gemma-3-27b-it

Google

轻量高效

128K

nvidia/llama-3.1-nemotron-70b-instruct

NVIDIA

优化版 Llama

128K

响应速度排序（实测数据）

优先级

模型

首 Token 延迟

适用场景

1

Step-3.5 Flash

< 1秒

极速响应，简单任务

2

GLM-5

1-2秒

综合能力强，Agent首选

3

MiniMax M2.1

1-2秒

多语言编程，长文本

4

DeepSeek V3

2-3秒

复杂推理，代码生成

5

Kimi K2.5

2-4秒

超长文本（256K）

6

Llama 3.3 70B

1-2秒

通用任务，稳定可靠

7

Mistral Large

1-2秒

欧洲语言，逻辑推理

8

Qwen2.5 72B

1-2秒

中文优化，代码能力

9

Gemma 3 27B

< 1秒

轻量级，资源敏感

10

Nemotron 70B

1-2秒

NVIDIA 优化版 Llama

nvidia端 api 可以获取

nvidia账号创建成功后，可以点击models，浏览NVIDIA提供的模型。这些模型的api key都是同一个，即nvidia下的api key：

点击感兴趣的模型，比如mini max m2.1，弹出框点击“Acknowledge & Continue”按钮后，出现以下界面：

点击右上角 View Code,弹出以下界面，点击右上角Generate API Key：

生成API Key以后，就可以拷贝、使用啦：

配置参数：

API Provider：OpenAI Compatible

Base URL:https://integrate.api.nvidia.com/v1

API key:上面生成的api_key

Model ID：z-ai/glm5 ； minimaxai/minimax-m2.1 ……

实际使用起来可能感觉反应不够敏捷，有点卡顿，可能是用的人多，也坑能是官方有限流限速。

不过，免费，已经很香了，不是吗？还要啥自行车？可以了。

唯一的限制是：40请求/min。基本够用了。

Openclaw侧配置

OpenClaw 原生支持通过 fallbacks（故障转移）配置实现多模型自动切换。当主模型因 Token 耗尽、速率限制（429）或 API 故障时，系统可自动按顺序切换到备用模型。按照官方指南配置Openclaw.json即可。

配置注意点
NVIDIA NIM 的模型 ID 格式为厂商/模型名，在 OpenClaw 中引用时需加上 provider 前缀：

配置中 id: z-ai/glm5
引用时: nvidia-nim/z-ai/glm5

如果单账户额度不足，理论上可配置多个 NVIDIA Auth Profile，突破限额。

验证配置及切换状态实时监控

重启 OpenClaw Gateway：

openclaw gateway restart

检查当前模型状态：

/model status

测试故障转移（手动触发）：

# 查看当前使用的模型/usage full

查看当前模型和 Token 成本：

/usage cost        # 查看成本统计

实测情况

配置完后，让它继续先前它自主规划的通过闲鱼发布任务揽客挣钱的项目。反应很迟缓，有时候我几乎怀疑它已经罢工。但各种手段检查，又好像并没有dead。让它做下自检：

15:40做自动切换是否配置到位监测，15:50都没动静，追问了一下：

第二轮又把模型提供商列了一遍：

自动切换按道理我是已经配到位的，但它检测结果是尚未支持。

配置文件已经做了备份，既然它说不对，让它修复下：

然后，5分钟过去，尚无动静。

从前面的对话时间戳也可看出来，反应非常慢。

如果是要有人监督、配合，基本不可用，太慢了，等不起。

如果是它真的完全自主自己24小时不停歇干活的话，慢不慢倒没那么紧要了。

这树懒一般的存在，自动fallback也不是而不关键，懒得等了。

试试让它做点其他的、比闲鱼发布更轻量一点的事看看。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴