带你认识数据标注公司

一个完整的数据标注流程需要经过任务分配、标记程序设计、进度跟踪和质量跟踪等几个环节,环节中涉及到标注员、审核员和管理员几个角色,这些是任何一个数据标注团队都具备的基本要素,不同的是组织工作的方式。

大多数AI实验室、初创型AI公司在发展初期,都需要大量的数据来训练模型,但如果雇佣大量的人力进行数据标注,就不得不面临这样的处境:一是管理方面的挑战,在研发产品的同时还要把大量精力放在管理标注人员身上;二是成本的挑战,大量全职标注人员的薪酬对于初创型公司和研究实验室都是一笔不小的支出。

于是,数据标注公司随着发展如火如荼的人工智能行业也发展起来。为了适应人工智能公司对数据标注不同程度的需求,当前,我国数据标注行业的市场结构也分化为了几种。

最开始兴起的是众包结构,在众包平台上,一端对接需求公司,一端对接大量有空余时间的志愿者(兼职人员)。众包结构的优点是可以组织社会上的大量兼职人员进行标注,节省公司的运营成本,但缺点也很明显,就是众多分散的兼职人员之间合力完成一个大型标注任务,他们的专业背景和工作能力参差不齐,沟通成本高昂,数据保密也相对困难,一旦需求公司要调整原有标注需求,兼职人员流动性大,无法给与需求公司灵活服务。意识到自身的缺点,近年来一些众包平台也开始对入驻的数据标注团队进行测评,以及采取末尾淘汰等措施,提升平台整体的竞争能力。当前,市场上典型的数据众包平台有京东众智、百度众测等。

另外一种就是成立专门的数据标注公司,有稳定的标注人员。相对于众包结构,数据工厂的优势是标注人员稳定,需求方和数据标注方能即时沟通,沟通成本降低,同时,数据传递也有源可溯,降低了数据泄露的可能性。

伴随着行业的发展,数据标注正在形成一条极为完善的产业链,而行业也开始愈发想专业化与技术化发展。而这些转变离不开人才的大量涌入。AI优评在数据标注人才培养方面走在了前面。通过与想过部门合作,AI优评建立起一整套科学的测评体系,并且联手人社部及国家职业资格培训鉴定实验基地统一核发《人工智能技术服务-数据标注与审核》高新技术能力证书,为行业建立人才培养和准入标准,推动数据标注行业的发展。