做机器学习的人有个幻觉:只要自动化够聪明,标注这种脏活就能交给机器。谷歌2016年推AutoML时,整个行业都在欢呼,仿佛数据民工终于要下岗了。

真相是,标注时间一点没省,只是吵架对象换了。以前团队吵"这个框画得对不对",现在吵"模型标错的要不要人工复审"。吵的内容变了,分贝没变。

一位在Waymo待了四年的工程师说得很直白:「我们80%的会议不是在讨论模型架构,是在争论边界框的模糊地带。」自动驾驶里一片落叶和一滩水渍的区分,算法自信满满,人类看完直摇头。

自动标注的真正价值不是替代人工,而是把最枯燥的重复劳动筛掉。但筛完之后,剩下的全是硬骨头——那些模型"有点拿不准"的样本,恰恰是最关键的训练燃料。换句话说,AutoML把标注从体力劳动升级成了判断力的较量。

现在主流做法是"人机回环":机器先跑一遍,人类只审边缘案例。表面看效率提升了,实际上对标注员的要求更高了。以前画框就行,现在得懂模型为什么犹豫。

有个细节很有意思:某自动驾驶团队发现,让资深工程师亲自标100张困难样本,比让初级员工标1000张普通样本更能提升模型表现。成本账算下来,老板沉默了。