打开网易新闻 查看精彩图片
搞LLM应用的团队最近集体陷入一种尴尬:有人刚写完几千行的智能路由模块,转头发现GitHub上有个项目用10行配置就搞定了同样的事。这种落差,堪比花三个月自建机房,发现云厂商按量计费更便宜。
所谓智能路由,就是让简单问题走便宜的小模型,复杂任务才调用GPT-4o。听起来像餐厅分桌——散客坐大厅,VIP进包厢。但多数团队的做法是硬编码规则:字数超过500?上Claude。含代码块?上GPT-4。规则越堆越多,最后变成一团if-else spaghetti。
开源方案routerLLM的思路是另一回事。它不猜规则,直接让多个小模型"盲投"答案,再用一个评分模型选最优解。开发者原话是:「This is honestly one of the easiest ways to cut your API costs by 60% without touching accuracy.」翻译成人话:成本砍半,效果没差。
这套机制的狡猾之处在于延迟换成本。盲投意味着多跑几次推理,但小模型便宜到可以忽略不计。实测显示,对70%的日常查询,Qwen-2.5-7B的输出质量已足够用,而价格是GPT-4o的1/50。
有团队算过账:日均10万次调用的话,硬路由能省的钱够招一个中级工程师。但代价也很明显——首次响应慢了200毫秒。产品经理的取舍题来了:用户感知不到的延迟,换看得见的利润,换不换?
routerLLM的README目前只有300多星,但评论区已经有人在问:「这玩意儿和Vercel的AI SDK冲突吗?」答案是不冲突,但也没人保证不冲突。开源世界的经典困境——省下的钱,可能以debug时间的形式还回去。
热门跟贴