“我们默认所有请求都走最强大模型。”团队最早就是这么干的,爽快,但也烧钱。后来他们发现,不是每个告警都值得动用“手术刀”——很多低优先级问题用一个轻量模型就够了。于是,一个运行时模型路由层被架了起来,结果:推理成本直降6倍。
最开始,构建AI智能体时挑一个最强模型统一处理所有请求,简单且诱人。GPT-4、Claude、Llama 70B,哪个顺手就用哪个。但很快,问题浮现:一条关于搜索结果过时的P3级别告警,和一次支付失败的P1级事故,需要的分析深度天差地别。把两者都塞进同一个昂贵模型,就像让外科医生去处理纸划伤——过度配给,账单也随着请求量飙升。他们意识到,真正的智能应该放在路由层本身。
团队引入了一个叫cascadeflow(级联流式路由库)的运行时决策层,它根据请求的实际需求动态指派模型。整体配置很直接:注册两个模型,一个便宜快速,另一个强大昂贵。例如,将llama-3.1-8b-instant和llama-3.3-70b-versatile都交给cascadeflow管理,由它决定每次调用走哪条路。路由逻辑核心是“按告警严重性分派”:P1级事故——支付失败、认证中断、数据管道崩了——全部导向强大模型;P2和P3级事故则一律使用那个更便宜快速的小模型。决策原则简单,但省钱效果不简单。
加入路由之后,两个模型每百万token的成本差距摆在眼前:轻量模型每次调用token消耗398个,费用仅0.000038美元,响应延迟0.33秒;重模型一次消耗339个token,费用0.000271美元,延迟0.59秒。算下来,对低优先级请求改用轻量模型后,每次推理成本差距达6倍。在一个每天处理数百条告警的系统里,这种省法会像滚雪球一样放大。更重要的是,P3告警的处理质量并未下降——一个过期搜索索引,根本不需要700亿参数大模型来告诉你“手动刷新一下”。
cascadeflow的另一个价值是提供了完整的审计日志。每次路由决策都被记录下来,标明哪个模型处理了请求、消耗多少token、花了多少钱、延迟多长。看着日志,你能精确掌握预算流向,这对成本敏感型团队而言简直是一份透明的账单。
他们还把cascadeflow与一个名叫Hindsight的记忆系统联动起来。Hindsight会将每个已解决的事故存为记忆,当新告警触发时,智能体自动调取相关的历史事故作为上下文。结合之后,答案质量明显提升,不出所料地为事故处理又添了一份助力。不过,关于更深层的实现细节,公开分享至此戛然而止。
热门跟贴