两家团队反向迁移：嵌入模型该租还是买？|token|反向迁移|嵌入模型|托管|运维

一个工程师花两天跑完测试，把月付1.1万美元的账单压到每天70美元。同一周，另一家四人团队却拆掉自托管容器，搬上云端，账单从1000美元跌到90美元。

他们都没错。这就是嵌入模型（将文本转为向量的技术）部署的真相——"看情况"是句正确的废话，本文把它拆成能算账的决策框架。

正方：本地部署，规模越大越香

先看那支月付1.1万美元的团队。他们用OpenAI的text-embedding-3-small处理约2亿条产品评论，每周全量刷新。工程师拿BGE-large-en-v1.5在单张H100上跑text-embeddings-inference（一款开源推理框架），评估集召回率持平，spot实例每天约70美元GPU费用。

算笔账：H100按AWS spot价约2-3美元/小时，全月跑满约1800美元。对比原账单，规模效应下省掉80%以上。

本地部署的核心变量是流量形态。固定高吞吐、数据不出境、已有GPU运维能力——满足任意两项，自建就开始划算。可选的开源模型也在变强：BGE-M3是目前最强的多语言开源选项，all-MiniLM-L6-v2用384维向量在纯英文检索场景仍堪用，且能在现有CPU上免费跑。

但成本不止硬件。L4实例月租约400美元，H100约1800美元，这还没算SRE人力、第二区域容灾、spot池断供时切到按需的20%溢价。那位工程师"两天后回来"的轻描淡写，背后是团队已有TEI或vLLM的部署经验。

反方：托管API，中小规模碾压

四人团队的反向操作更反直觉。他们原本自托管MiniLM容器，月烧1000美元GPU时间；切到OpenAI后，token费用降至90美元。

托管的定价模型是"用多少付多少"，没有最低消费。text-embedding-3-small每百万token 0.02美元，若月处理5亿新chunk加5000万查询，550百万token×0.02=11美元。这个数量级下，托管优势是数量级的。

托管选项在快速迭代：text-embedding-3-small/large、Voyage 3/3 Lite、Cohere Embed v4、Gemini Embedding 2。MTEB评测榜上，Voyage 3 Large领跑检索任务，NV-Embed-v2居综合平均榜首——这些前沿模型没有开源权重，想用只能调用API。

隐性成本也在托管这边更低：零冷启动延迟、自动扩缩容、多区域冗余、合规认证。四人团队没有专职SRE，这是理性选择。

判断：比"每token"对"每小时"更关键的三个问题

真正的比较维度是"你每月总成本"，而非单价。

第一个问题：你的token量级在哪条线上？粗略估算，月处理token低于10亿时，托管几乎必胜；超过50亿且流量稳定，本地开始有机会。中间地带需要精确建模——那位1.1万美元团队的2亿条评论，按每条50 token估算约10亿token，恰在临界点附近，他们的选择验证了"规模够大+运维已有"的组合。

第二个问题：你的流量是脉冲还是恒流？托管按实际调用付费，波峰自动消化；本地预留GPU在低谷期空转，成本刚性。若查询集中在每天几小时，本地利用率崩盘。

第三个问题：你的团队已经运营什么？已有Kubernetes集群和GPU节点，TEI或vLLM的边际成本极低；若全套基础设施从零搭建，前六个月的人力投入可能吃掉两年硬件节省。

价格还在跌。原文标注验证日期为2026年4月29日，并注明"价格约每六个月下降，比较形态不变"。这意味着今天的临界点会右移，但决策框架稳定。

那两家团队的反向选择，本质是对同一公式的不同代入值。没有 universal 答案，但有 universal 的算账方法：列出你的月token量、流量曲线、现有运维债，然后让数字说话。

你的团队最近一次评估这个决策是什么时候？价格又跌了一轮，临界点可能已经过了。