Token耗尽/429错误之痛

OpenClaw 支持多种免费/低成本模型来源,但glm-5实践下来,模型token动不动耗尽,限额较小,不顶用。

打开网易新闻 查看精彩图片

财大气粗的nvidia通过同一套api key提供多个模型,免费额度据说是40次调用/分钟,看起来配置更简便,额度也更友好。忽略来源多样的免费/低成本模型,此番先考虑介入nvidia提供的模型,看看效果再说。

nvidia端提供免费无限模型额度

打开网易新闻 查看精彩图片

Nvidia可用免费模型清单

模型 ID

厂商

特点

上下文长度

z-ai/glm5

智谱 AI

国产顶级,综合能力强

128K

moonshotai/kimi-k2.5

月之暗面

长文本专家

256K

stepfun-ai/step-3.5-flash

阶跃星辰

极速响应

32K

minimaxai/minimax-m2.1

MiniMax

多模态支持

100K

deepseek-ai/deepseek-v3

DeepSeek

推理能力突出

64K

Meta/llama-3.3-70b-instruct

Meta

开源最强

128K

mistralai/mistral-large

Mistral

欧洲最强

128K

qwen/qwen2.5-72b-instruct

阿里巴巴

代码能力强

128K

google/gemma-3-27b-it

Google

轻量高效

128K

nvidia/llama-3.1-nemotron-70b-instruct

NVIDIA

优化版 Llama

128K

响应速度排序(实测数据)

优先级

模型

首 Token 延迟

适用场景

1

Step-3.5 Flash

< 1秒

极速响应,简单任务

2

GLM-5

1-2秒

综合能力强,Agent首选

3

MiniMax M2.1

1-2秒

多语言编程,长文本

4

DeepSeek V3

2-3秒

复杂推理,代码生成

5

Kimi K2.5

2-4秒

超长文本(256K)

6

Llama 3.3 70B

1-2秒

通用任务,稳定可靠

7

Mistral Large

1-2秒

欧洲语言,逻辑推理

8

Qwen2.5 72B

1-2秒

中文优化,代码能力

9

Gemma 3 27B

< 1秒

轻量级,资源敏感

10

Nemotron 70B

1-2秒

NVIDIA 优化版 Llama

nvidia端 api 可以获取

nvidia账号创建成功后,可以点击models,浏览NVIDIA提供的模型。这些模型的api key都是同一个,即nvidia下的api key:

打开网易新闻 查看精彩图片

点击感兴趣的模型,比如mini max m2.1,弹出框点击“Acknowledge & Continue”按钮后,出现以下界面:

打开网易新闻 查看精彩图片

点击右上角 View Code,弹出以下界面,点击右上角Generate API Key:

打开网易新闻 查看精彩图片

生成API Key以后,就可以拷贝、使用啦:

打开网易新闻 查看精彩图片

配置参数:

API Provider:OpenAI Compatible

Base URL:https://integrate.api.nvidia.com/v1

API key:上面生成的api_key

Model ID:z-ai/glm5 ; minimaxai/minimax-m2.1 ……

实际使用起来可能感觉反应不够敏捷,有点卡顿,可能是用的人多,也坑能是官方有限流限速。

不过,免费,已经很香了,不是吗?还要啥自行车?可以了。

唯一的限制是:40请求/min。基本够用了。

Openclaw侧配置

OpenClaw 原生支持通过 fallbacks(故障转移) 配置实现多模型自动切换。当主模型因 Token 耗尽、速率限制(429)或 API 故障时,系统可自动按顺序切换到备用模型。按照官方指南配置Openclaw.json即可。

配置注意点
NVIDIA NIM 的模型 ID 格式为 厂商/模型名,在 OpenClaw 中引用时需加上 provider 前缀:

  • 配置中 id: z-ai/glm5
  • 引用时: nvidia-nim/z-ai/glm5

如果单账户额度不足,理论上可配置 多个 NVIDIA Auth Profile,突破限额

验证配置及切换状态实时监控

重启 OpenClaw Gateway:

openclaw gateway restart

检查当前模型状态:

/model status

测试故障转移(手动触发):

# 查看当前使用的模型/usage full

查看当前模型和 Token 成本 :

/usage cost        # 查看成本统计
实测情况

配置完后,让它继续先前它自主规划的通过闲鱼发布任务揽客挣钱的项目。反应很迟缓,有时候我几乎怀疑它已经罢工。但各种手段检查,又好像并没有dead。让它做下自检:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

15:40做自动切换是否配置到位监测,15:50都没动静,追问了一下:

打开网易新闻 查看精彩图片

第二轮又把模型提供商列了一遍:

打开网易新闻 查看精彩图片

自动切换按道理我是已经配到位的,但它检测结果是尚未支持。

配置文件已经做了备份,既然它说不对,让它修复下:

打开网易新闻 查看精彩图片

然后,5分钟过去,尚无动静。

打开网易新闻 查看精彩图片

从前面的对话时间戳也可看出来,反应非常慢。

如果是要有人监督、配合,基本不可用,太慢了,等不起。

如果是它真的完全自主自己24小时不停歇干活的话,慢不慢倒没那么紧要了。

这树懒一般的存在,自动fallback也不是而不关键,懒得等了。

试试让它做点其他的、比闲鱼发布更轻量一点的事看看。