机器学习有个尴尬现实:标注数据太贵,模型却贪得无厌。主动学习想解决这个矛盾——让算法自己挑样本,减少人工标注量。

但传统方法有个盲区:它假设查询和标注是分开的两步。实际上,人可以边被问边教。比如教孩子认动物,你指一张图问"这是猫吗",孩子答"不对,是老虎"——一次交互就完成纠错。

打开网易新闻 查看精彩图片

这篇论文把这种"即问即学"模式形式化了。核心设计叫"单轮主动学习":模型提出一个查询,人类给标签,模型立即更新,然后进入下一轮。关键是查询策略要兼顾"信息量"和"可回答性"——太难的问题人类也懵。

打开网易新闻 查看精彩图片

实验在MNIST上跑通,但真正的野心在视觉问答和交互式系统。让模型学会"问对问题",比让它"答对问题"更难,也更接近人类的学习方式。

一个细节:作者用信息增益来选查询,但加了约束——查询必须落在人类能可靠标注的区域。这避免了模型钻牛角尖,问些模棱两可的边界案例。

打开网易新闻 查看精彩图片

思路不新,但框架干净。后续跟进的人不少,说明这个方向确实卡在了痛点上:数据效率的尽头,是交互效率。