AI监考系统翻车实录：幻觉模型如何骗过工程师

字节漫游指南

2026-05-08 18:27 ·北京

八年前，某团队开发了一套AI驱动的在线考试系统。设计目标很简单：自动监考，识别作弊行为。技术栈选了当时最先进的计算机视觉模型，准确率标称97%。

上线第一周就出事了。系统把考生揉眼睛判定为"与场外人员眼神交流"，把伸懒腰标记成"使用隐藏通讯设备"。更离谱的是，有考生全程静止，AI却报告了11次"异常头部转动"——后来发现是房间吊扇的影子。

工程师复盘时发现核心漏洞：模型训练数据全是实验室环境下的正面人脸，没考虑过侧光、风扇、甚至眼镜反光。所谓97%准确率，是在干净数据集上的数字，不是真实考场的数字。

团队被迫做了一套"反幻觉"架构。所有AI判定必须先经过规则引擎过滤，比如"单次异常不触发警报，需连续三次且跨摄像头验证"。最终人工复核率从5%压到0.3%，但成本翻了一倍。

这个案例被写进了工程手册。结论很直白：幻觉不是bug，是生成模型的固有特性。关键不是消灭它，而是在系统设计上假设它必然发生。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴