数据科学家花80%时间清洗数据，却漏掉最致命的一步

硅屿手记

2026-04-12 09:03 ·北京

你填了缺失值，做了特征缩放，甚至调了三次超参数。模型跑完，准确率还是像电梯故障一样卡在半空。问题出在哪？

多数教程不会告诉你：数据集本身在说话，只是你调错了频道。

数据分布的形状——偏斜、长尾、隐藏的簇——比任何算法都先一步决定了天花板。一个右偏的收入分布，你硬塞给线性回归，就像用直尺量海浪。清洗是除草，塑形才是看土壤。

从业者常犯的一个错：把标准化当成万能胶。事实上，对数变换、分箱、甚至主动丢弃尾部异常点，往往比多叠两层神经网络管用。一位Kaggle Grandmaster在复盘里写过，「我赢的那场，80%时间花在理解变量怎么歪的」。

下次模型再崩，别急着换架构。先画个直方图，看看你的数据到底长什么形状。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴