SERHANT.用1个SDK同时调用3家大模型

灰度测试中

2026-03-26 11:58 ·北京

800个房产经纪人同时用AI跑客户分析，后台却只用3个工程师维护——这不是什么SaaS神话，是纽约地产公司SERHANT.去年交出的真实数据。他们的秘密武器叫S.MPLE，一个从内部试点干到全员标配的AI工具，核心逻辑简单粗暴：让模型互相打工，哪个便宜用哪个。

2024年2月，Jeremy Bunting以工程VP身份加入时，S.MPLE已经跑了200人内测。这个Next.js应用搭在Vercel上，前端是渐进式网页，后来顺手扩了个React Native iOS版，后端没动一砖一瓦。Bunting的焦虑不在技术债，在AI本身——"这行变化比你的迭代周期还快，选错模型等于白干三个月"。

AI SDK：把"绑死一家"变成"随时跳槽"

AI SDK：把"绑死一家"变成"随时跳槽"

Bunting最初对Vercel的AI SDK有本能警惕。他直接问团队："这玩意会不会把我们锁死在Vercel生态里？"一个工程师的回应让他改了主意——"这不是基础设施绑定，是基础设施独立"。

翻译成人话：SDK只是层翻译官，OpenAI、Claude、Gemini的API格式千差万别，SDK帮你抹平差异。想换模型？改行配置的事，不用重写业务逻辑。

Bunting算过一笔账。如果团队all in某个前沿模型，每次厂商涨价、降速、抽风，都得跟着重写 fallback 逻辑。AI SDK把"模型选择"变成了配置文件里的下拉菜单，"认知负荷直接砍半"。

AI Gateway是另一张牌。团队内部有人自己揣着API key做原型，Gateway照样能统一监控用量、成本和响应延迟。Bunting的原话："调试快了，优化快了，花钱花在哪也清楚了。"

三模型混打：复杂任务给Claude，快响应丢给Gemini

三模型混打：复杂任务给Claude，快响应丢给Gemini

省下来的工程时间，全砸在"什么任务配什么模型"的实验上。SERHANT.的打法很现实——没有全能选手，只有分工协作：

Claude Sonnet处理复杂、需要准确性的任务。房产市场分析涉及多源数据交叉验证，容错率低，Claude的"长思考"模式更稳。

Gemini Flash跑轻量级、高并发的查询。客户问"这套房学区怎么样"，响应速度比深度分析更重要，Gemini的定价和延迟都占优。

OpenAI GPT-4o作为中间地带的默认选项。当任务复杂度介于两者之间，或者需要特定功能调用时，4o的通用性兜底。

这套"模型路由"策略直接写在AI SDK的配置层里。Bunting透露，某些场景下通过任务分流，成本压低了40%以上——不是砍功能，是让便宜的模型干便宜的活。

从200人到800人：没重构，只加配置

从200人到800人：没重构，只加配置

S.MPLE的扩张路径有点反常识。传统SaaS扩到4倍用户量，通常要动架构、分库、加缓存。SERHANT.的工程师数没涨，后台还是那套Next.js + Vercel，变化只发生在配置表里。

Bunting把这归功于"提前买的灵活性"。2024年初选技术栈时，团队赌的是"模型层会剧烈震荡"，而不是"某个厂商会赢"。现在看，这个赌对了——Claude 3.5、GPT-4o、Gemini 1.5的发布节奏比手机换代还快，锁死任何一家都是技术自杀。

一个细节：S.MPLE的iOS版和网页版共享同一套API层。React Native的决策当初被质疑过"是不是太偷懒"，但现在新功能上线，两端同步更新，不用养两个后端团队。

房产经纪人的使用数据也在反哺模型选择。哪些查询类型容易触发Claude的拒绝响应？哪些场景下Gemini的幻觉率更高？Gateway的日志成了迭代地图，"下个月可能又把权重调一遍"，Bunting说。

现在S.MPLE每天处理数万次AI交互，后台的模型组合仍在动态调整。最后一个被验证的改动是：把部分摘要任务从GPT-4o迁移到Gemini Flash，延迟从2.3秒降到0.8秒，成本再砍一截——而实现这个改动，工程师只花了15分钟改配置。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴