八年前,某团队开发了一套AI驱动的在线考试系统。设计目标很简单:自动监考,识别作弊行为。技术栈选了当时最先进的计算机视觉模型,准确率标称97%。
上线第一周就出事了。系统把考生揉眼睛判定为"与场外人员眼神交流",把伸懒腰标记成"使用隐藏通讯设备"。更离谱的是,有考生全程静止,AI却报告了11次"异常头部转动"——后来发现是房间吊扇的影子。
打开网易新闻 查看精彩图片
工程师复盘时发现核心漏洞:模型训练数据全是实验室环境下的正面人脸,没考虑过侧光、风扇、甚至眼镜反光。所谓97%准确率,是在干净数据集上的数字,不是真实考场的数字。
打开网易新闻 查看精彩图片
团队被迫做了一套"反幻觉"架构。所有AI判定必须先经过规则引擎过滤,比如"单次异常不触发警报,需连续三次且跨摄像头验证"。最终人工复核率从5%压到0.3%,但成本翻了一倍。
打开网易新闻 查看精彩图片
这个案例被写进了工程手册。结论很直白:幻觉不是bug,是生成模型的固有特性。关键不是消灭它,而是在系统设计上假设它必然发生。
热门跟贴