在公众的传统认知里,AI数据标注始终带着某种“数字流水线”的色彩。
它通常意味着坐在电脑前,重复处理着图片、语音或文本,比如给自动驾驶图像逐一框出行人与车辆,为语音系统一句句校对字幕,或者按照既定规则为数据打上标签。其低门槛、低薪资、机械性的特质,堪比AI时代的“电子厂”。
但当大模型浪潮席卷AI行业之后,数据标注行业开始出现一种出人意料的变化。虽然传统数据标注工作仍有庞大需求,但越来越多AI企业,尤其是头部大模型厂商,正在寻找一种更有技术含量的新型标注员。
如今,阿里、字节、DeepSeek、MiniMax等企业的一些相关岗位,不再冠以“数据标注”的名称,而是改名为“数据百晓生”、“AI出题专家”、“数据炼金师”等等。
能力要求也随之变化。不少岗位的学历要求提高到硕士及以上,拥有法律、金融、医学、编程、语言学等专业背景,或是具备丰富从业经验和竞赛经历的人才更为吃香。
要求提升后,这些岗位的薪资待遇也有可观的上浮。在Boss直聘等招聘平台上,金融、法律、医学等垂类任务已经出现每小时500-800元的报价。即便是在大厂做外包岗,这类岗位的月薪也从传统数据标注三四千元的水平,提高到8000-10000元左右的水平。
大模型时代的数据标注,正在成为一种复杂得多的职业。而这一变化背后,其实对应着AI产业自身的一次转向。
一、AI数据标注,为什么突然需要专家?
大模型行业的数据供给模式,正在发生变化。
早期大模型的训练高度依赖海量公开数据,厂商抓取互联网文本、图片和视频,让模型学习语言规律与世界知识。在这一阶段,算力、参数和数据规模很大程度上决定了模型能力上限,这也构成了预训练阶段的Scaling Law。
然而,互联网上的数据终归是有限的。2024年,OpenAI前首席科学家Ilya Sutskever就曾提出一个观点,互联网上用于训练模型的数据即将枯竭,这可能会终结我们过去所熟知的预训练范式。
具体到中文上,这一数据短缺的问题可能会更严重。阿里研究院发布的《大模型训练数据白皮书》显示,互联网上中文语料和英文语料占比存在显著差异,英文语料占比高达59.8%,而中文语料仅占1.3%。
同时,互联网数据并非天然的高质量资源,其中大量内容存在重复、噪声、错误甚至相互矛盾的语料。模型可以靠互联网数据学习语言模式,却未必能够形成可靠判断。
▲某大厂的数据标注岗位要求中,提到了高质量中文数据的短缺
合成数据虽被视为缓解这一问题的路径,但难以根本解决问题。模型生成的数据受限于自身能力边界,可以扩展已有知识,却难以创造超出自身认知的判断标准。
因此,后训练阶段的Scaling逐渐成为行业重点。这一阶段,模型能力的提升越来越依赖人工反馈,包括模型评测、偏好数据构建以及RLHF等工作。模型需要人类告诉它,什么答案更优,什么逻辑更符合现实,什么表达更符合专业标准。
而在金融、法律、医疗等专业领域,以及推理、创意写作等复杂任务中,只有具备深厚专业知识和判断能力的人,才能产出真正高质量的数据,反哺模型的能力提升。
二、时薪可达500元,但学历并非通关密码
随着后训练重要性的持续提升,从2025年下半年开始,字节、阿里等国内大厂和DeepSeek、MiniMax、智谱等AI头部厂商,陆续在招聘平台、高校社群和社交媒体上宣传自家的专家数据平台或是高级数据标注岗位,吸引更多专业人才加入。
为了理解这类新型数据标注工作的具体内容,智东西采访了两位参与者。他们进入行业的路径不同,所处职业阶段也不相同,对工作的感受更存在明显差异,但都在参与同一件事:帮助模型学习如何判断、理解与表达。
去年,拥有十多年金融和互联网从业经历的Molly,在社交平台上看到字节专家数据平台Xpert的招募信息后,随即投递了简历。
▲字节专家数据标注平台Xpert
真正进入平台之前,她首先需要通过测试。候选人不仅要证明自身专业背景,还需要设计能够“难倒模型”的问题。平台会同时调用多个模型进行验证,只有当至少两个模型回答失败时,题目才有机会被认定为有效。
Molly并不觉得测试困难,但她也观察到,不少参与测试的候选人会卡在这一环节。在她看来,原因并不只是学历高低,而是真实行业经验的差异。“很多硕博学生没有真正的从业经历,所以很难设计出有行业深度的问题。”她说。
最终,Molly进入了商科与金融方向的专家任务组。她提到,这类任务往往对应真实业务场景。以投资尽调场景为例,多种模型会模拟机构对项目开展评估,围绕风险、运营与商业可行性生成数份上万字分析报告。
而她的工作,则是以金融从业者的视角,对这些结果进行比较与判断:哪份分析更符合真实业务逻辑,风险识别是否充分,评估框架是否贴近实际决策流程。完成选择之后,工作并未结束。她还需要进一步拆解判断过程,从多个维度解释依据,并指出其他答案存在的问题。
这类任务采用时薪制,根据测试结果和专业能力进行分级。Molly观察到,在金融方向,300元至500元时薪并不罕见。
需要补充的是,这份工作的时薪并不能直接换算为月薪,其薪酬完全与工作量挂钩,专家每天接多少任务、平台每天放多少任务,都会影响专家在一段时间内的总收入。
在Xpert上,大多数任务都可以在线完成,但需要全程录屏以防作弊,确保判断来自真实专家,而非其他AI工具。
在Molly看来,这份工作的核心能力要求并不是学历,而是长期积累的行业经验,真正做过投资、做过评估,才知道模型的问题在哪。
除了金融相关任务,Molly有时也会主动选择一些时薪较低的逻辑题。在她眼里,这些任务更像桌游,因此做起来颇有趣味。
谈起这些经历时,Molly始终带着一种明显的兴奋感。我们问她是否享受这份工作,她几乎没有犹豫地说道:“很快乐。”
三、创意外壳之下,数据标注仍是流水线?
不是所有人都像Molly那样,将这份工作视为享受。
毕业于中国矿业大学的渊星在2025年5月以外包身份进入一家互联网大厂,从事AI小说方向的标注工作,半年后离职。这是他人生中的第一份工作。他说:“在入职之前,我没有任何工作经验,也没有做过数据标注。”
他所在的AI小说项目组刚成立不久,正处于缺人阶段。相比成熟团队优先招募有标注经验的从业者,这个组更看重写作背景。
渊星恰好符合这一点。他有出版经历,也拿过一些写作奖项,因此即使缺乏标注经验,仍顺利通过面试进入团队。
但真正入职后,他发现,这份工作的实际内容与外界对“AI小说”的想象并不完全一致:抛去创意工作的外壳,其本质上是一套高度细分的数据生产流程。
渊星所在的团队需要同时处理多个模型生成结果:同一个小说指令会被交给该大厂的模型以及其他竞品模型作答,标注员则负责逐条阅读、比较,并依据规则判断问题所在。
这份工作对专业能力有着不低的要求。团队里有大概一半人干过编剧,其他人则有网文创作、媒体投稿的经历,标注员需要判断人物行为是否符合设定、剧情推进是否合理、冲突是否成立,一切都被拆解成细致的评分标准。
完成问题识别后,标注员还要给模型输出打分,并在部分项目中对文本进行人工改写,删除冗余描写、修补逻辑漏洞,或重新调整结构。其中一项工作是为长篇小说“抽细纲”。一部十几章、上万字的小说,需要被逐章提炼成结构化大纲,再作为模型扩写和训练的数据输入。
从本质上来看,这更像一种需要文学判断力的流水线工作,任务高度重复、标准化。渊星认为,标注员在生态链中的位置很低。
渊星称,他的工作时间是每天上午9:30到晚上6:30,中午有90分钟休息时间,上下班时间弹性,基本不会加班。
尽管对文学审美和写作能力有一定要求,但渊星的薪资水平并不高。他在北京工作,每月到手收入约为8000元,五险一金按当地最低标准缴纳。
四、同一份数据标注,不同的职业现实
同样从事数据标注,Molly与渊星却身处两个截然不同的世界:一边是高度专业、能获得价值感的岗位,另一边虽也有专业性要求,却更像是枯燥压抑的流水线。
这种分化,也塑造了他们对AI行业完全不同的理解。
Molly对这份工作抱有明显认同。在她看来,制造数据、训练AI本质上是一种知识共享过程。金融专家、法律专家、心理咨询师都在向模型输入经验,而模型再以更低成本回流给社会。
在过去一年里,她明显感受到模型迭代越来越快。金融领域里,监管规则和行业变化频繁,而早期模型经常无法识别这些变化,如今类似问题已经减少。
除了标注工作外,Molly还将AI应用到了她的另一个身份上。她经营着一家心理咨询工作室,过去,咨询师需要花费大量成本寻求专业督导(由经验丰富的咨询师对其他咨询师的工作进行评估和支持),而现在,她开始借助模型完成部分督导的需求。
她相信,这会让专业服务变得更加普惠。
渊星的感受则更克制。他承认模型在进步,但这种进步并不总是直观,尤其在小说领域,半年时间里,他并未看到令人惊艳的变化。
更重要的是,他始终难以确认自己的劳动究竟产生了多大作用。模型吸收的是海量数据,而他处理的只是极小部分。即便模型提升,他也无法清楚判断,哪些改变真正来自自己的工作。
这种感觉,他形容为“黑箱”。劳动存在,但成果距离自己很远。
渊星还在他的叙述中提到一个体验——“被挑刺”。在日常工作中,数据必须经过质检员修改才能提交。质检员每改完一篇,都会在群里@标注员并指出问题,群里几乎全是问题反馈,从不说哪里写得好。
然而,在小说标注这种高度主观的任务中,所谓“错误”并不总是绝对的,而更像是不同理解之间的差异。但在流程中,它仍然会被呈现为需要修正的问题。
渊星观察到,很多标注员在工作中开始怀疑自己的价值,他们所处的工作氛围也比较压抑。在他工作的半年时间里,有两位同事因此离职。
结语:谁在教会AI理解世界
如何高效地组织人类经验,正成为大模型下一阶段竞争的关键因素。在这一过程中,像Molly和渊星这样的参与者,构成了连接模型与真实行业经验的关键节点:他们将自身的专业知识与判断能力,按照易于模型理解与吸收的形式重新组织,再注入训练与反馈流程之中。
在大模型时代,这项工作不再以相对单一、固定的形态存在,而是被进一步细化、拆解。从通用标注走向领域分工,从简单判断走向复杂推理,从结果打分走向过程解释,数据生产正在形成更精细的任务链条。
与此同时,也需要看到这种新型知识工作给人带来的差异体验。有人在其中获得价值感,也有人在重复与标准化流程中被消耗。如何让人的经验被更有尊严地对待、让专业判断的价值被更清晰地看见,正在成为这个新生产体系中无法回避的问题。
注:Molly、渊星均为化名
热门跟贴