大模型评测没告诉你的：API契约漂移

摸鱼算法

2026-04-18 06:25 ·北京

「我们跑了评测，分数涨了，上线就崩。」一位AI工程师的吐槽，道出了大模型落地的隐形陷阱。

原文作者抛出一个被忽视的事实：现有持续集成（CI）体系是为确定性代码设计的，而大模型输出天然不确定。评测集（evals）只能告诉你模型能力边界，却监控不了生产环境的API契约漂移。

什么是契约漂移

你的应用依赖模型返回特定JSON结构，比如{"sentiment": "positive", "confidence": 0.92}。模型版本更新后，字段名变成sentiment_score，或者多了层嵌套——没报错，但下游全崩。

这不是幻觉问题，是结构契约破坏。传统单元测试抓不住，因为每次调用结果本就不一样。

为什么评测不够

评测集关注的是准确率、召回率、人类偏好对齐。作者指出一个盲区：这些指标不监控「输出格式稳定性」。

模型厂商迭代频繁。你上周调通的提示词，这周可能因底层模型升级而解析失败。评测分数漂亮，生产环境却埋雷。

缺失的CI层长什么样

作者呼吁的解决方案很具体：在现有CI流水线里插入「契约测试」——

• 固定输入样本，断言输出结构而非内容
• 监控字段类型、必填项、枚举值范围
• 模型版本变更时自动触发结构回归测试

这不算新技术，是API测试的老办法。但大模型生态里，所有人都在追SOTA分数，没人谈工程稳健性。

谁该操心这件事

不是模型开发者，是用模型做产品的人。你的RAG系统、Agent工作流、自动化报表——任何依赖结构化输出的场景，都是契约漂移的受害者。

作者没给现成工具，只抛出问题。这恰恰说明：大模型基础设施的成熟度，被过度高估了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴