最近飞长途,我花 12 美元买了机上 WiFi,打开 Claude Code 想改两行 bug。结果飞到平流层,我的代码还没落地——第三轮交互就开始转圈,请求超时。
问题不在 AI 的脑子,在我的网速。这玩意儿是典型的工作流智能体:读文件、改代码、跑测试,一轮要调 10 到 15 次工具。更坑的是 HTTP 协议的规定:每轮对话都要把完整历史重发一遍,包括最初的提示词、读过的所有文件、改过的每行代码、测试输出的每行报错。几轮下来,数据包从 2KB 膨胀到 38KB,我的机上 WiFi 直接成了瓶颈。
这让我意识到一件事:AI 编程工具成熟了,但支撑它的传输层还在用"聊天机器人"时代的方案。你跟 ChatGPT 闲聊,一轮问答就结束;但编程智能体要跑 10 轮、20 轮甚至 50 轮,上下文像滚雪球一样越滚越大。HTTP 的无状态设计,在这里变成了性能杀手。
今年 2 月,OpenAI 在响应 API 里加了 WebSocket 模式——服务器本地缓存对话历史,不用每次都重传。我测了一下,差距有点离谱。
2025 年底开始,AI 编程智能体已经从"玩具"变成正经的生产工具。Claude Code、OpenAI Codex、Cursor、Cline 这些工具,现在常态化地多文件联改、跑测试套件、构建失败自动重试。OpenAI 说 Codex 周活已经 160 万,他们的工程师习惯同时开 4 到 8 个智能体并行干活。
这些工具的核心是"智能体循环":模型推理 → 调用工具 → 拿到结果 → 继续推理,直到问题解决。每一轮都要读文件、改代码、跑测试,工具调用少则 10 次,复杂重构能到几十次。关键是,每轮都需要"截至目前的完整上下文"。
HTTP 的问题就出在这里:服务器不记事儿,每轮都是全新的请求。客户端必须把之前所有的模型输出、所有的工具结果,全部重发一遍。我们的测试显示,到第 9 轮时,HTTP 每轮发送的数据量几乎是 WebSocket 的 10 倍。
WebSocket 的做法是建立持久连接,服务器在内存里缓存状态。从第二轮开始,客户端只发两样东西:一个 60 字节的引用 ID,加上新的工具输出(通常 1-3KB)。
为了验证,我们搭了一个开源基准测试工具,模拟真实的编程工作流:修复失败测试、添加搜索功能、重构 API 层。每个任务跑 3 遍,对比 GPT-5.4 和 GPT-4o-mini 两种模型。
结果很稳定:WebSocket 能减少 80%-86% 的上行数据量,端到端速度提升 15%-29%。第一轮响应时间两者差不多,WebSocket 的握手开销很快被摊平;优势在后续轮次逐渐放大。GPT-5.4 的提升更明显(29% 对比 15%),可能是因为它生成的响应更长,每轮累积的上下文更多。
但 WebSocket 有个致命问题:它是 OpenAI 独家的。如果你像很多团队那样,Claude 用来推理、GPT 用来提速、Gemini 用来省钱——切到非 OpenAI 服务时,性能优势瞬间归零。Google 的 Gemini Live API 虽然有 WebSocket,但面向的是实时音视频,不是文本智能体。Cloudflare AI Gateway 的 WebSocket 端点,底层还是 HTTP,没有服务端缓存。
从服务商角度看,这个问题更严峻。保守估计,全球每周有 500 万到 1000 万开发者活跃使用 AI 编程智能体。按高峰 10% 并发、单次任务 40 秒计算,OpenAI 这类头部厂商高峰期约有 100 万并发会话。
HTTP 方案:100 万会话 × 176KB = 每 40 秒 176GB 上行流量。
WebSocket 方案:100 万会话 × 32KB = 每 40 秒 32GB 上行流量。
相当于减少 144GB 入站流量,降低 29Gbps 带宽压力。服务端省下的比客户端更多:接收、解析、分词的数据少了,所有用户的响应都能更快。
所以 WebSocket 快,不是因为协议本身多先进——它的帧开销和 HTTP/2 差不多。快是因为服务端"记事儿"了,不用每次都重新处理完整的对话历史。
当然,这个"记性"是有代价的:状态只存在当前服务器的内存里,断线就丢(除非开 store=true);没有多路复用,并行任务得开多个连接;1 小时强制断线,长会话要自己写重连逻辑。
对于架构师来说,选型要务实:简单任务、多厂商切换、无服务器后端、调试需求高的场景,HTTP 依然是更灵活的选择。但如果你的智能体要跑很多轮、调很多次工具,有状态传输层的收益会随复杂度指数级放大。
真正的悬念是:这会成为行业标准,还是永远作为 OpenAI 的独家卖点?当开发者越来越习惯在不同模型之间"货比三家",传输层的碎片化可能会成为比模型能力更难解的锁定。
落地时,我们的测试工具开源在 GitHub 上。有开发者跑完后反馈:在卫星网络环境下,WebSocket 把原本 3 分钟的代码审查任务压到了 40 秒——他终于不用在海上钻井平台当人肉路由器了。
热门跟贴