我在客厅搭了个AI调度员：让廉价模型干杂活，贵的大脑只解难题

像素与芯片

2026-05-24 02:43 ·北京

上周六醒来时，我的AI代理已经干完了一堆活：翻完Indiranagar14家餐厅的评分，更新了共享Google表格，签掉了一份我拖了一周的20页PDF，还写了个bash脚本清理服务器日志。

我没让它做这些。它就是……自己干了。

这叫OpenClaw——我跑在树莓派上的长期自主代理，24小时挂在Discord上。它管记忆、做研究、写代码、改文档、实时扒评分找班加罗尔周末好去处——基本把我一半生活设成了自动模式。

但几周前，我发现了个别扭事。

我让它："写个Python脚本解析JSON日志。"简单编码任务。它把请求发到云API，等了3秒，烧了我付费的token，带回答案——而我Mac Mini上就坐着个完全能打的本地大模型，离我三英尺远，闲得发慌。

接着我又问："一步步想，事件驱动和轮询架构在我通知系统里的权衡。"这是硬核推理题，值得发给前沿模型，token花得值。

同一个代理。同一个端点。需求完全不同。

然后一个蠢念头砸中我：要是系统能在请求抵达模型之前，就判断出该用哪个脑子呢？

结果一点都不蠢。一个周末、一台树莓派、一台Mac Mini、50行Python、一个开源网关，我搭出来了。

客厅里的配置

树莓派跑OpenClaw，我的自主代理。从Discord收输入，管上下文、记忆，统筹一切。

Mac Mini是大脑农场，跑三样东西：

1. Ollama配qwen2.5-coder:7b——本地编码模型，数据不出我家网络

2. AgentGateway——Google的开源AI网关，管路由、认证、可观测性

3. 一个轻量Python路由——我写的"意图分类器"，大概50行代码

神奇的是，OpenClaw对这一切毫无感知。它只往一个端点发请求，后台系统自己搞定剩下的事。

三路模型，一个入口

三个模型，三个价位，统一端点。OpenClaw只管往http://192.168.1.15:1234/v1/chat/completions发请求，别的不管。

为什么选AgentGateway？我评估过几个方案——裸Envoy、Nginx配Lua脚本、甚至从头写完整代理。但AgentGateway有几处突出：

开箱即给的能力：

协议转换——前端说OpenAI兼容API，后端能对接Gemini、Vertex AI、Bedrock、Ollama等等。我一行供应商专属代码都不用写。

后端认证——API密钥在网关层管理。OpenClaw看不见、存不了任何密钥。配置里写backendAuth: key: $GEMINI_API_KEY，剩下它处理。

模型别名——OpenClaw每次请求都发model: "inteli-llm"。AgentGateway默默翻译成实际要调用的模型。

可观测性——内置日志、指标、追踪。我能看到每个请求走了哪条路、花了多久、烧了多少钱。

开源——代码在GitHub上，有问题我自己能修。

50行Python做路由决策

AgentGateway处理连接，但路由逻辑是我写的。核心是个简单的意图分类器，跑在网关前面。

它看三样东西：

1. 请求内容——提示词本身，用关键词和模式匹配判断

2. 任务类型——编码、推理、创意写作、数据提取，每类有权重

3. 复杂度分数——我粗算的：提示词长度、是否要求"一步步想"、有没有代码块

分数低于阈值？走本地qwen2.5-coder。分数高？走Gemini 1.5 Pro。模糊地带？默认走便宜的那个，错了再重试。

整个路由逻辑不到50行。没有机器学习，没有向量数据库，就是一堆if-else和正则。

跑起来的样子

上周的数据：127个请求，73%走本地模型，27%走云端。平均响应时间从纯云方案的2.8秒降到1.2秒。成本？从每月大概47美元降到3美元——主要是那27%的云端调用。

但数字不是重点。重点是体验：简单任务秒回，复杂任务深思熟虑，我不用动脑子选模型。

有个意外收获。因为本地模型快且便宜，我开始把更多任务丢给它——整理邮件、重命名文件、生成周报草稿。这些我以前懒得自动化，因为不值得烧token。现在？随便丢。

它不会什么

这系统不智能。它不懂语义，不懂任务真正的难度，只是按规则猜。有时候猜错：把该给Gemini的推理题丢给本地模型，答案质量明显下降。但错了可以重试，成本还是低。

它也不处理多模态。我试过让本地模型看图，qwen2.5-coder直接崩溃。现在图片请求强制走云端。

还有安全。本地模型没内容过滤，理论上能输出有害内容。但我一个人用，风险可控。多人场景得加层审核。

为什么值得搞

大模型正在分层。顶端是GPT-4、Gemini Ultra、Claude 3 Opus——推理强，贵，慢。中间是一堆7B、13B开源模型——编码够用，写邮件凑合，便宜，快，私有。底层是各种特化小模型——Embedding、分类、摘要。

问题是，大多数应用只用一个端点。要么全走贵的，浪费钱；要么全走便宜的，质量差。

智能路由是中间路线。不是新想法——OpenAI的模型选择器、Groq的推理引擎、各种LLM网关都在做。但自己搭有个好处：完全可控，成本透明，能按自己需求调。

我的场景很简单：一个人，几台设备，固定任务类型。你的场景可能完全不同。但核心逻辑通用：让合适的工具干合适的活。

怎么开始

如果你也想试，最低配置是一台能跑Ollama的旧电脑，和50行Python。AgentGateway不是必须的——Nginx配Lua、甚至Flask都能做路由。但它省时间，功能全，文档清楚。

第一步：列出你的任务类型。哪些是模板化的？哪些需要推理？哪些涉及隐私必须本地跑？

第二步：选模型。本地试qwen2.5-coder、Llama 3、Mistral；云端挑一个强的备用。

第三步：写规则。从简单关键词开始，慢慢加复杂度判断。别追求完美，先跑起来。

第四步：看日志。你会发现自己猜错的模式，再调规则。

我的代码在GitHub上，但说实话，那50行Python没什么特别的。值钱的是思路：把模型选择从"人决定"变成"系统决定"，从"事前决定"变成"实时决定"。

现在我的OpenClaw还在跑。刚才它又更新了表格，这次我没去看它用的哪个模型——反正结果是对的。这才是重点。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴