打开网易新闻 查看精彩图片

去年Q3,某SaaS公司的AI支出突然从月均$12K飙到$47K。财务追查三周,发现三个团队各自调用了GPT-4 Turbo,没人知道谁在用、用多少、用在哪。

这就是典型的"AI债务"——不是技术债,是治理债。

多数团队的故事高度相似:第一个功能上线时,OpenAI的SDK几行代码搞定。第二个团队想加个摘要功能,复制粘贴改个prompt。第三个团队要用Claude,新开一个API key。六个月后,你有了7个仓库、4种认证方式、0个能回答"我们到底花了多少钱"的人。

AI网关不是什么新架构,是旧问题的标准化解法

AI网关不是什么新架构,是旧问题的标准化解法

如果你做过微服务,API网关的概念不用解释——它挡在服务前面,处理路由、鉴权、限流、监控,让后端专注业务逻辑。

AI网关做完全一样的事,只是对象从微服务换成了大模型提供商。

核心结构很简单:你的应用不再直连OpenAI或Anthropic,所有请求先经过一个中间层。这个中间层掌握四件事:

• 按场景路由到不同模型(客服用轻量模型,代码生成用强模型)
• 集中管理所有API密钥和权限
• 按token粒度追踪成本,精确到团队/项目/功能
• 对输入输出施加安全策略(敏感信息过滤、合规检查)

「我们之前以为LiteLLM就是终点」,一位基础设施负责人告诉我,「它能切换模型,但治理、审计、成本分摊还是各团队自己造轮子。」

LiteLLM这类轻量代理是第二阶段常见的选择。它解决了"多模型调用"的技术问题,但没解决"组织如何管理AI"的运营问题。

从"能用"到"可控":三个阶段的典型演进

从"能用"到"可控":三个阶段的典型演进

大多数团队的AI基础设施会经历清晰的三个阶段:

阶段一:SDK直连

OpenAI官方SDK,5分钟跑通demo。适合单团队、单场景、快速验证。代价是零治理——谁在用、用多少、prompt里写了什么,全是黑箱。

阶段二:轻量代理

引入LiteLLM或自研薄层,实现模型切换和统一接口。开始有人关心"能不能fallback到备用模型",但成本追踪仍靠估算,安全策略分散在各repo。

阶段三:集中式网关

出现专门的AI网关层(自建或采购),配套成本中心、审计日志、策略引擎。关键转变是从"这个服务收到1万次请求"到"销售团队在GPT-4上消耗420万token,触发敏感信息拦截7次,成本$X"。

「没有网关的时候,AI使用是'有机增长'——换个说法就是混乱增长」,一位完成第三阶段迁移的CTO说,「有了网关,你才能说'我们在管理它'。」

判断你是否需要网关:先看现状,别想架构

判断你是否需要网关:先看现状,别想架构

这个决策被很多人复杂化了。不需要框架,不需要10步检查清单,只需要诚实回答几个问题:

你的API密钥分布在几个代码仓库?超过3个就要警惕。
财务问"这个月AI花多少钱",你能5分钟内给出分团队的明细吗?
安全团队要求审计prompt和响应记录,你的方案是什么?
如果OpenAI宕机30分钟,你的核心功能有备用路径吗?

如果以上都是"否"或"不知道",你暂时不需要网关——你需要的是意识到问题正在积累。

反过来说,如果你只有单一团队、单一模型、单一功能,且未来6个月没有扩张计划,网关是过度设计。把SDK用好,把日志打全,等痛点了再迁移。

网关的真正价值不是技术能力,是组织能力的对齐。

它强制你把"谁在用AI、怎么用、花多少"变成可查询、可审计、可分配的事实。这在10人团队是负担,在100人团队是基础设施,在1000人团队是合规刚需。

那位Q3账单暴涨的SaaS公司,最终在2024年初部署了AI网关。迁移花了6周,但第一个月就通过模型路由优化(把40%的请求从GPT-4降级到GPT-3.5)省回了网关本身的成本。

更意外的收获是发现了两个"影子AI"项目——工程师用个人API key做的功能,从未经过安全评审。

你的组织现在有几个API key躺在代码库里?财务能准确说出上周的token消耗吗?如果主模型提供商明天宕机,你的fallback方案测试过吗?