800个房产经纪人同时用AI跑客户分析,后台却只用3个工程师维护——这不是什么SaaS神话,是纽约地产公司SERHANT.去年交出的真实数据。他们的秘密武器叫S.MPLE,一个从内部试点干到全员标配的AI工具,核心逻辑简单粗暴:让模型互相打工,哪个便宜用哪个。
2024年2月,Jeremy Bunting以工程VP身份加入时,S.MPLE已经跑了200人内测。这个Next.js应用搭在Vercel上,前端是渐进式网页,后来顺手扩了个React Native iOS版,后端没动一砖一瓦。Bunting的焦虑不在技术债,在AI本身——"这行变化比你的迭代周期还快,选错模型等于白干三个月"。
AI SDK:把"绑死一家"变成"随时跳槽"
Bunting最初对Vercel的AI SDK有本能警惕。他直接问团队:"这玩意会不会把我们锁死在Vercel生态里?"一个工程师的回应让他改了主意——"这不是基础设施绑定,是基础设施独立"。
翻译成人话:SDK只是层翻译官,OpenAI、Claude、Gemini的API格式千差万别,SDK帮你抹平差异。想换模型?改行配置的事,不用重写业务逻辑。
Bunting算过一笔账。如果团队all in某个前沿模型,每次厂商涨价、降速、抽风,都得跟着重写 fallback 逻辑。AI SDK把"模型选择"变成了配置文件里的下拉菜单,"认知负荷直接砍半"。
AI Gateway是另一张牌。团队内部有人自己揣着API key做原型,Gateway照样能统一监控用量、成本和响应延迟。Bunting的原话:"调试快了,优化快了,花钱花在哪也清楚了。"
三模型混打:复杂任务给Claude,快响应丢给Gemini
省下来的工程时间,全砸在"什么任务配什么模型"的实验上。SERHANT.的打法很现实——没有全能选手,只有分工协作:
Claude Sonnet处理复杂、需要准确性的任务。房产市场分析涉及多源数据交叉验证,容错率低,Claude的"长思考"模式更稳。
Gemini Flash跑轻量级、高并发的查询。客户问"这套房学区怎么样",响应速度比深度分析更重要,Gemini的定价和延迟都占优。
OpenAI GPT-4o作为中间地带的默认选项。当任务复杂度介于两者之间,或者需要特定功能调用时,4o的通用性兜底。
这套"模型路由"策略直接写在AI SDK的配置层里。Bunting透露,某些场景下通过任务分流,成本压低了40%以上——不是砍功能,是让便宜的模型干便宜的活。
从200人到800人:没重构,只加配置
S.MPLE的扩张路径有点反常识。传统SaaS扩到4倍用户量,通常要动架构、分库、加缓存。SERHANT.的工程师数没涨,后台还是那套Next.js + Vercel,变化只发生在配置表里。
Bunting把这归功于"提前买的灵活性"。2024年初选技术栈时,团队赌的是"模型层会剧烈震荡",而不是"某个厂商会赢"。现在看,这个赌对了——Claude 3.5、GPT-4o、Gemini 1.5的发布节奏比手机换代还快,锁死任何一家都是技术自杀。
一个细节:S.MPLE的iOS版和网页版共享同一套API层。React Native的决策当初被质疑过"是不是太偷懒",但现在新功能上线,两端同步更新,不用养两个后端团队。
房产经纪人的使用数据也在反哺模型选择。哪些查询类型容易触发Claude的拒绝响应?哪些场景下Gemini的幻觉率更高?Gateway的日志成了迭代地图,"下个月可能又把权重调一遍",Bunting说。
现在S.MPLE每天处理数万次AI交互,后台的模型组合仍在动态调整。最后一个被验证的改动是:把部分摘要任务从GPT-4o迁移到Gemini Flash,延迟从2.3秒降到0.8秒,成本再砍一截——而实现这个改动,工程师只花了15分钟改配置。
热门跟贴