「我们跑了评测,分数涨了,上线就崩。」一位AI工程师的吐槽,道出了大模型落地的隐形陷阱。
原文作者抛出一个被忽视的事实:现有持续集成(CI)体系是为确定性代码设计的,而大模型输出天然不确定。评测集(evals)只能告诉你模型能力边界,却监控不了生产环境的API契约漂移。
打开网易新闻 查看精彩图片
你的应用依赖模型返回特定JSON结构,比如{"sentiment": "positive", "confidence": 0.92}。模型版本更新后,字段名变成sentiment_score,或者多了层嵌套——没报错,但下游全崩。
这不是幻觉问题,是结构契约破坏。传统单元测试抓不住,因为每次调用结果本就不一样。
为什么评测不够
评测集关注的是准确率、召回率、人类偏好对齐。作者指出一个盲区:这些指标不监控「输出格式稳定性」。
模型厂商迭代频繁。你上周调通的提示词,这周可能因底层模型升级而解析失败。评测分数漂亮,生产环境却埋雷。
缺失的CI层长什么样
作者呼吁的解决方案很具体:在现有CI流水线里插入「契约测试」——
• 固定输入样本,断言输出结构而非内容
• 监控字段类型、必填项、枚举值范围
• 模型版本变更时自动触发结构回归测试
这不算新技术,是API测试的老办法。但大模型生态里,所有人都在追SOTA分数,没人谈工程稳健性。
谁该操心这件事
不是模型开发者,是用模型做产品的人。你的RAG系统、Agent工作流、自动化报表——任何依赖结构化输出的场景,都是契约漂移的受害者。
作者没给现成工具,只抛出问题。这恰恰说明:大模型基础设施的成熟度,被过度高估了。
热门跟贴