80%准确率模型被一句话证伪，数据科学家集体踩坑

字节漫游指南

2026-04-06 19:55 ·北京

David Poudel最近搭了个客户流失预测模型。7,032条电信数据喂进去，Logistic Regression跑完，屏幕跳出80%准确率。看起来挺漂亮，对吧？

他差点就信了。直到发现数据集里73.5%的客户本来就没流失——这意味着一个只会说"不会流失"的傻瓜模型，准确率也有73.5%。换句话说，他的"智能"模型只比瞎猜强了不到7个百分点。

「A model that predicts nothing useful can still look 73% accurate.」Poudel在复盘里写道。真正该问的不是"总体多准"，而是"找到我们想找的人了吗"。

他用混淆矩阵拆解：精度0.65意味着模型喊"要流失"时，只有65%真的说中；召回率更低，大量真流失客户被漏掉。ROC-AUC 0.82看着体面，但业务场景里，漏掉一个流失客户的成本可能是误报的十倍。

Poudel把这次经历写成教程，标题就叫《Your model says 80% accuracy. But is it actually good?》。评论区最高赞是个老数据科学家的自嘲：「我职业生涯前三年都在汇报假准确率，老板还夸我模型稳。」

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴