上周六醒来时,我的AI代理已经干完了一堆活:翻完Indiranagar14家餐厅的评分,更新了共享Google表格,签掉了一份我拖了一周的20页PDF,还写了个bash脚本清理服务器日志。
我没让它做这些。它就是……自己干了。
这叫OpenClaw——我跑在树莓派上的长期自主代理,24小时挂在Discord上。它管记忆、做研究、写代码、改文档、实时扒评分找班加罗尔周末好去处——基本把我一半生活设成了自动模式。
但几周前,我发现了个别扭事。
我让它:"写个Python脚本解析JSON日志。"简单编码任务。它把请求发到云API,等了3秒,烧了我付费的token,带回答案——而我Mac Mini上就坐着个完全能打的本地大模型,离我三英尺远,闲得发慌。
接着我又问:"一步步想,事件驱动和轮询架构在我通知系统里的权衡。"这是硬核推理题,值得发给前沿模型,token花得值。
同一个代理。同一个端点。需求完全不同。
然后一个蠢念头砸中我:要是系统能在请求抵达模型之前,就判断出该用哪个脑子呢?
结果一点都不蠢。一个周末、一台树莓派、一台Mac Mini、50行Python、一个开源网关,我搭出来了。
客厅里的配置
树莓派跑OpenClaw,我的自主代理。从Discord收输入,管上下文、记忆,统筹一切。
Mac Mini是大脑农场,跑三样东西:
1. Ollama配qwen2.5-coder:7b——本地编码模型,数据不出我家网络
2. AgentGateway——Google的开源AI网关,管路由、认证、可观测性
3. 一个轻量Python路由——我写的"意图分类器",大概50行代码
神奇的是,OpenClaw对这一切毫无感知。它只往一个端点发请求,后台系统自己搞定剩下的事。
三路模型,一个入口
三个模型,三个价位,统一端点。OpenClaw只管往http://192.168.1.15:1234/v1/chat/completions发请求,别的不管。
为什么选AgentGateway?我评估过几个方案——裸Envoy、Nginx配Lua脚本、甚至从头写完整代理。但AgentGateway有几处突出:
开箱即给的能力:
协议转换——前端说OpenAI兼容API,后端能对接Gemini、Vertex AI、Bedrock、Ollama等等。我一行供应商专属代码都不用写。
后端认证——API密钥在网关层管理。OpenClaw看不见、存不了任何密钥。配置里写backendAuth: key: $GEMINI_API_KEY,剩下它处理。
模型别名——OpenClaw每次请求都发model: "inteli-llm"。AgentGateway默默翻译成实际要调用的模型。
可观测性——内置日志、指标、追踪。我能看到每个请求走了哪条路、花了多久、烧了多少钱。
开源——代码在GitHub上,有问题我自己能修。
50行Python做路由决策
AgentGateway处理连接,但路由逻辑是我写的。核心是个简单的意图分类器,跑在网关前面。
它看三样东西:
1. 请求内容——提示词本身,用关键词和模式匹配判断
2. 任务类型——编码、推理、创意写作、数据提取,每类有权重
3. 复杂度分数——我粗算的:提示词长度、是否要求"一步步想"、有没有代码块
分数低于阈值?走本地qwen2.5-coder。分数高?走Gemini 1.5 Pro。模糊地带?默认走便宜的那个,错了再重试。
整个路由逻辑不到50行。没有机器学习,没有向量数据库,就是一堆if-else和正则。
跑起来的样子
上周的数据:127个请求,73%走本地模型,27%走云端。平均响应时间从纯云方案的2.8秒降到1.2秒。成本?从每月大概47美元降到3美元——主要是那27%的云端调用。
但数字不是重点。重点是体验:简单任务秒回,复杂任务深思熟虑,我不用动脑子选模型。
有个意外收获。因为本地模型快且便宜,我开始把更多任务丢给它——整理邮件、重命名文件、生成周报草稿。这些我以前懒得自动化,因为不值得烧token。现在?随便丢。
它不会什么
这系统不智能。它不懂语义,不懂任务真正的难度,只是按规则猜。有时候猜错:把该给Gemini的推理题丢给本地模型,答案质量明显下降。但错了可以重试,成本还是低。
它也不处理多模态。我试过让本地模型看图,qwen2.5-coder直接崩溃。现在图片请求强制走云端。
还有安全。本地模型没内容过滤,理论上能输出有害内容。但我一个人用,风险可控。多人场景得加层审核。
为什么值得搞
大模型正在分层。顶端是GPT-4、Gemini Ultra、Claude 3 Opus——推理强,贵,慢。中间是一堆7B、13B开源模型——编码够用,写邮件凑合,便宜,快,私有。底层是各种特化小模型——Embedding、分类、摘要。
问题是,大多数应用只用一个端点。要么全走贵的,浪费钱;要么全走便宜的,质量差。
智能路由是中间路线。不是新想法——OpenAI的模型选择器、Groq的推理引擎、各种LLM网关都在做。但自己搭有个好处:完全可控,成本透明,能按自己需求调。
我的场景很简单:一个人,几台设备,固定任务类型。你的场景可能完全不同。但核心逻辑通用:让合适的工具干合适的活。
怎么开始
如果你也想试,最低配置是一台能跑Ollama的旧电脑,和50行Python。AgentGateway不是必须的——Nginx配Lua、甚至Flask都能做路由。但它省时间,功能全,文档清楚。
第一步:列出你的任务类型。哪些是模板化的?哪些需要推理?哪些涉及隐私必须本地跑?
第二步:选模型。本地试qwen2.5-coder、Llama 3、Mistral;云端挑一个强的备用。
第三步:写规则。从简单关键词开始,慢慢加复杂度判断。别追求完美,先跑起来。
第四步:看日志。你会发现自己猜错的模式,再调规则。
我的代码在GitHub上,但说实话,那50行Python没什么特别的。值钱的是思路:把模型选择从"人决定"变成"系统决定",从"事前决定"变成"实时决定"。
现在我的OpenClaw还在跑。刚才它又更新了表格,这次我没去看它用的哪个模型——反正结果是对的。这才是重点。
热门跟贴