本地跑Claude Code零成本替代方案：4小时省94美元|code|上下文|人工智能模型|代码|替代方案|调用

上周有人用本地显卡跑了4小时Claude Code，处理725万token，账单是0美元。同样的工作量，如果走Anthropic官方API，要付94美元。

这不是偷服务，是完整的技术替代方案。核心思路：Claude Code以为自己在调用Anthropic API，实际上被LiteLLM代理到了本地模型。你的GPU不需要知道谁在敲门。

硬件配置是AMD Radeon AI PRO R9700，32GB显存，跑的是Qwen3.6-27B-MTP量化版。推理速度不算快——预填充约200 token/秒，生成阶段25-35 token/秒，但胜在没人掐你脖子。没有速率限制，没有每周额度，代码不用出本机，断网也能跑。

整套链路拆开来就三层：Claude Code → LiteLLM代理（localhost:4000）→ llama.cpp服务（localhost:8080）→ 本地模型。LiteLLM负责把Anthropic的API格式翻译成OpenAI兼容格式，llama.cpp管推理加速，模型本身用4-bit量化加推测解码（speculative decoding）省显存。

具体搭建三步走。第一步启动llama.cpp服务端，加载主模型和0.6B参数的draft模型做推测解码，上下文长度设32768，GPU层数拉满。第二步配LiteLLM，把模型名映射成claude-opus-4-5骗过Claude Code，实际指向本地8080端口。第三步改环境变量，让Claude Code以为localhost:4000就是Anthropic官方地址。

作者还叠了一层Hermes Agent做任务编排，支持Telegram远程监控、持久化上下文、工具调用循环。4小时里这套组合自动完成了多步骤代码迁移，全程无人值守。完整开源配置和启动脚本已放GitHub，包括NVIDIA CUDA和Apple Silicon的适配说明——后者作者还没实测，在等社区反馈。

硬门槛是显存。13B级别模型勉强能跑需要16GB，27B级别建议24GB起步。作者特别想收集不同硬件的生成速度数据，尤其是N卡和M系列Mac的实际表现。