为了加深记忆,自己做了一个图。在真实的数据中,有正有负(下图左),通过调节参数(下图右圆圈的大小与位置),目的是取得尽量多的正数据,同时避免取到负数据。
会有以下几种情况:
① 圆圈够小,全部面积位于正数据区域,那么取样100%是正数据,Precision为100%(取得的数据全部是正确的数据),但是Recall只有60%,可以理解为正确的数据中,只取得了60%。
② 圆圈变大,但是仍然无法覆盖所有的正数据区域,而且不可避免地也进入了负数据区域。Recall提高了,即有更大比例的正数据被采集到了,但是同时混入了不想要的负数据,Precision降低。
③ 圆圈变得更大,足以覆盖所有正数据区域。这种情况下,Recall达到100%,因为所有正数据全部被采集到了。但是Precision进一步降低,因为混入了更多的负数据。
计算图形公式如下:
根据定义,F1 score可以表示成:
热门跟贴