一个工程师花两天跑完测试,把月付1.1万美元的账单压到每天70美元。同一周,另一家四人团队却拆掉自托管容器,搬上云端,账单从1000美元跌到90美元。

他们都没错。这就是嵌入模型(将文本转为向量的技术)部署的真相——"看情况"是句正确的废话,本文把它拆成能算账的决策框架。

打开网易新闻 查看精彩图片

正方:本地部署,规模越大越香

先看那支月付1.1万美元的团队。他们用OpenAI的text-embedding-3-small处理约2亿条产品评论,每周全量刷新。工程师拿BGE-large-en-v1.5在单张H100上跑text-embeddings-inference(一款开源推理框架),评估集召回率持平,spot实例每天约70美元GPU费用。

算笔账:H100按AWS spot价约2-3美元/小时,全月跑满约1800美元。对比原账单,规模效应下省掉80%以上。

本地部署的核心变量是流量形态。固定高吞吐、数据不出境、已有GPU运维能力——满足任意两项,自建就开始划算。可选的开源模型也在变强:BGE-M3是目前最强的多语言开源选项,all-MiniLM-L6-v2用384维向量在纯英文检索场景仍堪用,且能在现有CPU上免费跑。

但成本不止硬件。L4实例月租约400美元,H100约1800美元,这还没算SRE人力、第二区域容灾、spot池断供时切到按需的20%溢价。那位工程师"两天后回来"的轻描淡写,背后是团队已有TEI或vLLM的部署经验。

反方:托管API,中小规模碾压

四人团队的反向操作更反直觉。他们原本自托管MiniLM容器,月烧1000美元GPU时间;切到OpenAI后,token费用降至90美元。

托管的定价模型是"用多少付多少",没有最低消费。text-embedding-3-small每百万token 0.02美元,若月处理5亿新chunk加5000万查询,550百万token×0.02=11美元。这个数量级下,托管优势是数量级的。

托管选项在快速迭代:text-embedding-3-small/large、Voyage 3/3 Lite、Cohere Embed v4、Gemini Embedding 2。MTEB评测榜上,Voyage 3 Large领跑检索任务,NV-Embed-v2居综合平均榜首——这些前沿模型没有开源权重,想用只能调用API。

隐性成本也在托管这边更低:零冷启动延迟、自动扩缩容、多区域冗余、合规认证。四人团队没有专职SRE,这是理性选择。

判断:比"每token"对"每小时"更关键的三个问题

真正的比较维度是"你每月总成本",而非单价。

第一个问题:你的token量级在哪条线上?粗略估算,月处理token低于10亿时,托管几乎必胜;超过50亿且流量稳定,本地开始有机会。中间地带需要精确建模——那位1.1万美元团队的2亿条评论,按每条50 token估算约10亿token,恰在临界点附近,他们的选择验证了"规模够大+运维已有"的组合。

第二个问题:你的流量是脉冲还是恒流?托管按实际调用付费,波峰自动消化;本地预留GPU在低谷期空转,成本刚性。若查询集中在每天几小时,本地利用率崩盘。

第三个问题:你的团队已经运营什么?已有Kubernetes集群和GPU节点,TEI或vLLM的边际成本极低;若全套基础设施从零搭建,前六个月的人力投入可能吃掉两年硬件节省。

价格还在跌。原文标注验证日期为2026年4月29日,并注明"价格约每六个月下降,比较形态不变"。这意味着今天的临界点会右移,但决策框架稳定。

那两家团队的反向选择,本质是对同一公式的不同代入值。没有 universal 答案,但有 universal 的算账方法:列出你的月token量、流量曲线、现有运维债,然后让数字说话。

你的团队最近一次评估这个决策是什么时候?价格又跌了一轮,临界点可能已经过了。