David Poudel最近搭了个客户流失预测模型。7,032条电信数据喂进去,Logistic Regression跑完,屏幕跳出80%准确率。看起来挺漂亮,对吧?
他差点就信了。直到发现数据集里73.5%的客户本来就没流失——这意味着一个只会说"不会流失"的傻瓜模型,准确率也有73.5%。换句话说,他的"智能"模型只比瞎猜强了不到7个百分点。
「A model that predicts nothing useful can still look 73% accurate.」Poudel在复盘里写道。真正该问的不是"总体多准",而是"找到我们想找的人了吗"。
他用混淆矩阵拆解:精度0.65意味着模型喊"要流失"时,只有65%真的说中;召回率更低,大量真流失客户被漏掉。ROC-AUC 0.82看着体面,但业务场景里,漏掉一个流失客户的成本可能是误报的十倍。
Poudel把这次经历写成教程,标题就叫《Your model says 80% accuracy. But is it actually good?》。评论区最高赞是个老数据科学家的自嘲:「我职业生涯前三年都在汇报假准确率,老板还夸我模型稳。」
热门跟贴