上周有人用本地显卡跑了4小时Claude Code,处理725万token,账单是0美元。同样的工作量,如果走Anthropic官方API,要付94美元。
这不是偷服务,是完整的技术替代方案。核心思路:Claude Code以为自己在调用Anthropic API,实际上被LiteLLM代理到了本地模型。你的GPU不需要知道谁在敲门。
硬件配置是AMD Radeon AI PRO R9700,32GB显存,跑的是Qwen3.6-27B-MTP量化版。推理速度不算快——预填充约200 token/秒,生成阶段25-35 token/秒,但胜在没人掐你脖子。没有速率限制,没有每周额度,代码不用出本机,断网也能跑。
整套链路拆开来就三层:Claude Code → LiteLLM代理(localhost:4000)→ llama.cpp服务(localhost:8080)→ 本地模型。LiteLLM负责把Anthropic的API格式翻译成OpenAI兼容格式,llama.cpp管推理加速,模型本身用4-bit量化加推测解码(speculative decoding)省显存。
具体搭建三步走。第一步启动llama.cpp服务端,加载主模型和0.6B参数的draft模型做推测解码,上下文长度设32768,GPU层数拉满。第二步配LiteLLM,把模型名映射成claude-opus-4-5骗过Claude Code,实际指向本地8080端口。第三步改环境变量,让Claude Code以为localhost:4000就是Anthropic官方地址。
作者还叠了一层Hermes Agent做任务编排,支持Telegram远程监控、持久化上下文、工具调用循环。4小时里这套组合自动完成了多步骤代码迁移,全程无人值守。完整开源配置和启动脚本已放GitHub,包括NVIDIA CUDA和Apple Silicon的适配说明——后者作者还没实测,在等社区反馈。
硬门槛是显存。13B级别模型勉强能跑需要16GB,27B级别建议24GB起步。作者特别想收集不同硬件的生成速度数据,尤其是N卡和M系列Mac的实际表现。
热门跟贴