Claude Code在开发场景里的表现确实出色,但token消耗是个实打实的问题——项目越复杂,账单涨得越快。更头疼的是,有些代码涉及私有业务逻辑,或者你正在飞机上没网,这时候云端模型就帮不上忙了。
Docker Model Runner的价值就在这儿:把大模型搬到本地机器上跑,再花几分钟配置,就能让Claude Code调用这些本地模型而非Anthropic的云端服务。本文完整记录这套流程的实操步骤。
开始前先完成环境准备。Docker Desktop用户进入Settings > AI,启用Model Runner的TCP访问;偏好命令行的直接执行docker desktop enable model-runner --tcp 12434code>。这一步开启本地API的12434端口监听。
选模型是第一步。DockerHub AI目录里可选的LLM很多,作者选用的是ai/phi4:14B-Q4_K_M——14B参数量,Q4量化,平衡了能力和本地硬件负担。选模型时注意挑代码能力强的,pull命令执行后等待下载完成,耗时取决于模型体积。
验证环境是否正常。用docker model status和docker model ls查看状态和已下载模型,类似操作Docker镜像的体验。正式接入Claude Code前,建议先用curl测试API是否响应:
curl http://localhost:12434/v1/messages -H "Content-Type: application/json" -d '{"model": "ai/phi4:14B-Q4_K_M", "max_tokens": 100, "messages": [{"role": "user", "content": "Hello!"}]}'
返回正常JSON即表示通路已建立。最后一步切换Claude Code的指向:设置ANTHROPIC_BASE_URL=http://localhost:12434环境变量,并用--model参数指定本地模型名称,例如claude --model ai/devstral-small-2。执行后Claude Code的所有请求都会发往本地端口,而非Anthropic服务器。
这套方案的核心收益很明确:敏感代码不出本机、无网环境可用、长期高频使用省下token费用。代价是本地硬件要能扛住模型推理负载,以及需要自行评估本地模型的代码能力是否匹配项目需求。
热门跟贴