K近邻算法：不学习的机器学习

硅屿手记

2026-05-11 12:09 ·北京

机器学习领域有个异类。决策树在分裂节点，神经网络在调整权重，支持向量机在寻找超平面——它们都在"学习"。K近邻算法（KNN）却什么都不学。

它只干一件事：记住所有训练数据。新样本来了，现场找K个最像的邻居，让邻居投票决定归属。多数派获胜。没有训练过程，没有模型参数，只有距离计算和投票机制。

这种简单粗暴的方法，效果却出奇地好。但它在什么场景下会翻车？理解这一点，比会调参更重要。

距离怎么算？三种度量决定邻居人选。欧氏距离是直线距离，适合连续且尺度相近的特征。曼哈顿距离走直角，对异常值更鲁棒，高维场景更稳定。闵可夫斯基距离是两者的统一框架，p=1退化为曼哈顿，p=2就是欧氏。

K值选多少？这是偏差与方差的博弈。K太小，模型敏感，噪声会带偏决策。K太大，决策边界模糊，可能把远处的异类也拉进来投票。交叉验证是唯一的可靠答案。

特征尺度必须统一。KNN对量纲极度敏感。假设一个特征是收入（万元级），另一个是年龄（十位数），距离会被收入维度完全主导。标准化或归一化不是可选项，是必选项。

维度灾难是KNN的命门。特征空间维度升高，数据点之间的距离差异急剧缩小，"近邻"变得毫无意义。高维稀疏数据面前，KNN的投票机制会失效。

加权KNN是改进方案。让距离更近的邻居拥有更大话语权，而非一人一票。距离倒数加权或高斯核加权，能降低边界样本的干扰。

KNN也能做回归。不再是投票选类别，而是取K个邻居的目标值平均。加权平均同样适用。

这个算法的启示在于：有时候"不学习"反而是优势。无需训练时间，新增数据即时生效，解释性极强——邻居是谁，一目了然。它的局限也清晰：预测时计算量大，内存消耗高，对高维数据无力。

选择KNN，就是选择用存储换训练，用距离换模型。在数据量适中、维度可控、需要可解释性的场景，它依然是值得优先尝试的基线方案。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴