本报记者 张蔚蓝 马梦阳
对图片、视频等进行标注,应用于自动驾驶等领域
数据标注员向记者展示电脑上的标注内容。 陈 涛摄
宁夏众梦智能科技有限公司,数据标注员正在工作。陈 涛摄
走进位于宁夏吴忠人工智能产业园的众梦智能科技有限公司,200多名年轻人正坐在电脑屏幕前,对着眼前所观察的每一个细节不断进行着拉框、标点等操作。这些图片、视频、文本等数据,构成了他们每一天的标注工作。
宁夏人工智能产业园于2024年1月30日正式揭牌运营,可以说是吴忠市乃至整个西北地区积极拥抱人工智能和数字经济发展的缩影。
“从OpenAI推出人工智能大模型产品ChatGPT以来,似乎所有的事情都与AI有关。数据标注行业起源于大数据采集,随着人工智能技术的发展,逐渐演变为今天的数据标注。整个发展过程大概有10多年的时间。”众梦智能科技的负责人刘仁明向《环球时报》记者介绍道,“我是国内第一批加入这个行业的人。最初的数据标注工作主要集中在语音、方言和小语种的采集,后来扩展到文本类数据,再到如今的自动驾驶和垂直文本领域。数据标注师的工作是将原始数据通过标注转化为可供机器学习的训练数据,这一过程对于AI的训练和优化至关重要。”
“我以前是幼师,现在是数据标注公司的预备项目经理。每月有4000元的稳定收入。”入职近半年的26岁数据标注员刘悦告诉《环球时报》记者,自己偶然接触到了数据标注行业,并对此产生了浓厚的兴趣,“在吴忠这样的小城市,父母觉得从事计算机相关的职业还是挺高端和比较体面的”。
“之前我不了解数据标注这个行业,文本识别、拉框、贴合等这些词汇对我而言很陌生。我主要对接的是自动驾驶和应用识别项目,在这个项目中我需要通过点云数据识别并标注车辆、行人、交通标志等。这些标注后的数据将被用于训练AI模型,提高其识别和处理能力。这些都是我过去从未接触过的领域,后来经过理论培训和实操练习,才完成了岗位的竞聘考核。”刘悦说,这个岗位对个人敏感度、专注度和持久性要求很高。
和一些“00后”一样,34岁的范敏也认为数据标注是一个相对新兴的行业。揣着对人工智能的好奇心,这位拥有会计专业背景的两岁孩子的母亲,决定选择数据标注作为自己重返职场的第一份工作。“对于初学者来说,数据标注工作相对简单且容易上手。但每个项目都有不同的规则,需要快速理解和掌握数据提供方的需求。”她所承担的主要工作,是对自动泊车技术提供高质量的标注数据,进而让车载大模型更具学习能力。
数据标注师的日常工作包括但不限于图像识别、语音转写、文本分类等。他们需要根据项目需求,对图片、视频或音频内容进行细致的标注,数据标注广泛应用于自动驾驶、图像识别等多个领域。以自动驾驶为例,数据标注人员需要对车辆行驶过程中的图像和视频数据进行标注,包括道路边界、交通标志、障碍物等信息的识别与定位。这些标注数据为自动驾驶系统的感知和决策提供了重要依据,保障了自动驾驶车辆的安全性和可靠性。
“吴忠基地的标注员大多是本地人,原来主要从事外卖、酒店、餐饮等服务行业,有的人甚至在家待业。”宁夏人工智能产业园负责人梁坤表示,人工智能产业的发展为吴忠这座西北城市提供了大量岗位。以刘悦所在的宁夏众梦智能科技有限公司为例,截至目前,该产业园已解决本地600人就业,其中16—24岁占62%,25—30岁占29%,大专及以上学历占就业人数的90%以上。
谈及薪资水平和行业前景,刘仁明表示,从自动驾驶到医疗、教育等多个领域,数据标注的应用范围正日益扩大。“随着经验的积累,标注员的薪资水平会不断提升,入行前6个月的月收入一两千元,6个月之后的工资可能在三四千元,一年之后的平均工资应该在4000元以上。如果是项目主管,工资基本上都是破万元。此外,一些从业者通过校企合作项目,将理论知识与实践相结合,为行业培养了大量专业人才。”
“目前全国数据标注员缺口在3000万人次左右”
尽管数据标注行业前景广阔,但也面临诸多挑战。刘仁明感叹道,标注行业具有“人才短缺”“用工低龄化”“流动性大”等特点。“我一直与员工开玩笑说,铁打的营盘流水的兵。在这个行业,很多人没有耐力。如果你告诉他需要6个月之后,才给他高工资,他可能两三个月之后就无法支撑。相当于6个月是个试用期和里程碑。只有真正跨过这6个月的坎之后,心性已经定下来,真正接受行业的发展和基调的人才是我们重点培养的人。”
刘仁明坦言:“现在有不少员工会去兼职。在数据交付上,我们面临交付压力。员工现在做的这批数据是按照周期交付,而后面在做的文本项目是按天交付,这时兼职人力无法满足条件。”
不少受访者表示,当前,西北地区的最大问题是无法留住人才。面对行业“招人难”“留不住人”的瓶颈,梁坤认为,数据标注人员面临的就业补贴政策是当前最需要解决的问题。除了西北地区外,在中国,上百万名人工智能数据标注员分布在贵州、江西、山东、河南等省份的二三线城市,并逐步向人力成本更低的县城渗透。
“1000万+”,这是目前从事数据标注行业人群的总数量,且这个数字还在不断地快速增长。当前,通用人工智能行业迫切需要精细化、场景化的标注数据。“整个行业的劳动密集性和人员需求较大,目前全国缺口在3000万人次左右,国内真正符合这类人才需求的很少。”刘仁明表示。
那么,一个业务能力强的数据标注员需要具备哪些条件?“第一,出错率低,效率高。第二,理解能力和领悟能力都需要超人。”刘仁明向《环球时报》记者说道,“一些在职业院校中接受过3D建模培训和汉语言文学专业的学生拥有成为一名‘合格’数据标注师的潜力,而真正可以写代码的人早已被(其他行业)挑走了。”
数据标注行业新趋势的到来,对数据标注员这一岗位产生颠覆性影响。刘仁明表示,几年前这一行业对学历没有要求,随着人工智能的不断发展,对人员的要求逐渐提高。很多人反映标注没有门槛,但从目前的就业形势来看,相当有门槛。“具体来说,我们做的项目需要针对某一专业,例如我们目前做的3D项目,学习过建模或者建筑类行业的人可能更具优势。而大模型文本类的项目可能更适合学习过汉语言、文科底子较好的学生。”
“具备相关行业知识的标注员会更加受到企业的青睐,而能力较为普通的数据标注员则将面临被淘汰的危机。”刘仁明表示,这个行业对年龄也有要求。以众梦智能科技有限公司为例,数据标注员的平均年龄在二十五六岁左右。“因为随着年龄增长,手速会下降。”
“行业将经历人才结构升级”
当下,社会各行各业对高质量、高精度的数据标注需求持续增长。在今年4月召开的全国数据工作会议上,国家数据局表示,我国将开展数据标注基地试点。5月,国家数据局在第七届数字中国建设峰会上公布了7个承担全国数据标注基地建设任务城市名单,分别为四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定、山西大同。
工信部信息通信经济专家委员会委员盘和林接受《环球时报》记者采访时表示,从产业端看,数据标注是数据要素资源开发的重要工序,企业一方面要通过标注让数据变现,另一方面要通过标注来推动AI产业发展。政策端来看,数据标注是发展数据要素产业的关键,能为当地带来新经济增长点,提供更多就业岗位,而下游的AI和上游的算力也会因为这一产业发展而得到带动。
2018年美国《纽约时报》的一篇报道援引一位专家的话表示,“在中国一些小城市涌现出一批数据标注初创企业,它们犹如精炼厂,正在把原材料变成驱动中国AI发展的燃料。”
盘和林表示,美国数据标注经常采用外包方式,向海外采购数据标注服务。中国的数据标注已经形成一定的产业规模,受益于中国工程师红利,中国数据标注产业发展较快。
“从某种程度上说,数据标注是一个被低估的行业。”刘仁明认为,对于数据标注行业,市场上确实存在一些误区。“过去,一些人常常认为,与AI行业‘高科技’‘高附加值’的标签相比,数据标注员从事的是劳动密集型工作,唯一与科技沾边的可能就是每天需要抱着电脑进行操作。”
而随着人工智能的发展,数据标注行业正经历着快速发展。刘仁明表示,可以预见的是,未来数据标注行业将经历一次人才结构升级,提升整体的专业水平。在此过程中,行业将吸引众多具有较高素质的人才加入,同时也会逐步淘汰那些技能平庸、无法满足高标准要求的员工。“对于愿意投身于此的从业者来说,这不仅是一个技术性工作,更是一个充满挑战和机遇的职业选择。”
热门跟贴