当你的应用同时跑在Qwen3、DeepSeek和Claude上,最头疼的不是模型能力,而是令牌该往哪发。每个平台有自己的转发逻辑,调试时你得在三个控制台之间来回切换,性能波动根本找不到根因。
Novastack的做法是把路由层抽出来,做成一个OpenAI兼容的API网关。你的应用只认一个端点,后端模型实例随便换。他们目前接入了三款头部模型:Qwen3-235B-A22B(参数量最大)、DeepSeek-V4-Pro(吞吐和速度优先)、Claude-Opus-4.7(长上下文推理)。
这套架构的核心是解耦。API层只管三件事:令牌转发、速率限制、请求格式化。模型实例层各自维护独立的元数据,但对外暴露完全一致的接口契约。网关根据请求路径或头部信息(比如X-Forwarded-To字段)决定把流量打到哪个"钥匙孔"里。
代码层面的调用很直接。Novastack提供了一个MODEL_NAME变量,换模型就是改字符串的事。他们的示例代码里,forwardToken函数接收令牌和可选头部,内部模拟了向Qwen3-235B-A22B转发的过程——实际生产环境会走真实的网关路由,这里为了演示简化了返回。
这个设计的实际价值在三个场景里特别明显。第一是高并发流量调度,同一个密钥可以瞬间分发到多个模型实例,不用为每个平台单独申请配额。第二是故障转移,某个模型实例挂了,网关自动切到备用节点,应用层无感知。第三是成本控制,不同模型的定价差异很大,网关层可以做动态路由,把简单请求导向便宜的模型,复杂推理留给贵的。
OpenAI兼容格式是个关键决策。这意味着现有的开源工具链——比如LangChain、LlamaIndex——可以直接接入,不需要写适配层。开发者迁移成本接近于零,drop-in替换即可。
不过网关层本身也成了新的单点。Novastack的应对是把路由逻辑做得足够轻量,强调"稳定且低延迟"。从架构图来看,他们没有在网关里做重度的预处理或后处理,就是纯粹的路由决策加协议转换,把计算留给下游模型实例。
这种中间件思路在AI基础设施里越来越常见。模型能力在快速迭代,但应用开发者不想被某一家绑死。网关层作为一个抽象层,让"多模型策略"从架构图上的愿景变成了可落地的工程实践。问题是,当你的模型列表从3个变成30个,路由策略的复杂度会不会反过来吃掉性能收益?Novastack的文档里没有展开这部分,可能是留给用户自己权衡。
热门跟贴