为了训练ChatGPT,OpenAi从2021年11月就开始向肯尼亚一家外包公司发送数以万计的文本。这些文本都是从互联网最阴暗,最可怕的地方挖掘出来,含有血腥暴力、性虐待、仇恨言论等有害内容。

为什么要搜集这么多有害言论?这是一项对OpenAI而言非常重要的工作,ChatGPT所依赖的GPT大型语言模型虽然已展示出令人印象深刻的文本能力。

GPT也是一个不断迭代更新的产品,在最新的GPT4出来之前,前期的GPT2和GPT3都有一个共同的毛病——输出暴力、种族歧视、性别歧视等内容。

打开网易新闻 查看精彩图片

GPT接受了从网络上抓取来的数十亿个单词进行训练,Ai不会分辨言论的好坏,而庞大的训练数据集包含有害言论,会被人工智能学习。为了建立安全系统以控制这种危害,OpenAI借鉴了Facebook等社交媒体的做法,对数据进行清洗,对有害内容打上标签。

1.非洲“鉴黄师”

想要进行这项工作,单纯靠机器本身是没办法做到的,这一部分工作需要人工介入才行。先将大量的有害文本给人看,打上标签以后再拿去给Ai学习。让它能区分哪些内容是可以的,哪些内容是有害的,这是一个教Ai学习分辨数据有害与否的过程。

这项由人工检测内容并打标签的工作并不稀奇,几乎每家互联网大厂都需要这样一批人来完成这样的工作。可以将其简单理解为鉴黄师,国内像是字节、腾讯这样的公司,也都有类似的职位。

不过OpenAi需要肯尼亚外包人员做的工作对人的心理伤害更严重,尤其是相比起国内的鉴黄师而言。

打开网易新闻 查看精彩图片

人工智能的魅力征服了全世界,但是其背后的肯尼亚数字民工却暴露了互联网行业鲜为人知的阴暗面。

Sama公司是一家总部位于旧金山的数据标注公司,与OpenAI合作支持其人工智能项目。该公司在肯尼亚、乌干达和印度招聘了大量员工来进行数据标注工作,包括为谷歌、Meta和微软等客户提供数据标注服务。

Sama公司自称是一家“有道德的人工智能公司”,已经为超过5万名员工提供了就业机会,帮助他们脱离贫困。

这些廉价的互联网外包工作,可以为那些低收入国家的劳动力提供了稳定的收入源。

然而,外包标注工作也存在着潜在的问题,这种外包模式的发展引发了对数据伦理和劳动条件的关注。一些人认为,需要对该领域进行更加广泛的监管和规范,以确保外包标注工作的合法性、公平性和可持续性,同时也需要关注这些工人的权益和福利。

2.不到2美元的超低时薪

Sama公司将员工分成三个小组,每个小组都专注于一个主题,每天需要阅读和标注150到250段不同长度的文字,工作时间为9小时。

然而,由于这种工作的性质,例如经常涉及仇恨言论等敏感内容,导致许多员工表示,这份工作给他们留下了心理创伤,甚至影响了他们的身心健康。

工作完成后,许多员工都会出现心理问题,这对他们的生活造成很大困扰。尽管Sama公司表示他们聘请了专业心理医生,员工可以随时前去咨询。可是在高强度的工作下,员工根本没有时间进行所谓的心理咨询。

打开网易新闻 查看精彩图片

外包公司的压榨使得员工们拿到手的工资少得可怜,从事有害内容标签工作的肯尼亚人时薪在1.32美元到2美元之间,2美元,按照现在的汇率来看,不到13元。

如果按照每天8小时工作制来算,一天的工资是104元。这已经是用最高的薪资来计算,实际上,比这更少。

数据标注的初级员工工资每月为170美元,换算成人民币大约是1176.54元。如果干得好,准确度和速度都达标,每个月还能多得70美元奖金。薪资最高的是质量分析师,其实就是更资深一点的数据标注人员,他们的时薪是一小时2美元。

那么OpenAI与外包公司签订的合同里,给工人的薪资是多少呢,两方的合同总价值大约20万美元,时薪为12.5美元,换算成人民币就是86.52元,是最高时薪数据标注员薪资的6倍。

3.正义来临导致大量失业

但就算是一份底薪且影响身心健康的工作,对于肯尼亚等国家的人来说,也是一份难能可贵的工作机话。因为没有这份工作,他们的生活或许会变得更糟糕,这不是一句简单的不想做可以不做来解决的。

这确实是一个互联网黑暗产业链,但对于当地人来说却是生存下去的希望和曙光。他们或许并不希望所谓正道的光照过去,因为那将让他们丢掉饭碗。

ChatGPT 火了以后,引起了大众和媒体的关注,美国《时代周刊》就曾发文谴责互联网公司在非洲设立血汗工厂。文章发出去以后,Sama公司受到调查,没多久就和微软、OpenAI、Facebook等公司取消了合作。

打开网易新闻 查看精彩图片

这意味着大量的员工失业,一位Sama的员工曾经表示:“不看有害内容就没有办法养家糊口。”光鲜亮丽的互联网产业,背后确实有着不为人知的血汗工厂,这无疑是对非洲人民的剥削和压迫,但同时对于极度贫困地区的人来说也是一份难能可贵的工作。

现在他们也许不需要再从事有害内容标注的工作,但谁又能保障失业人员的后续生活呢?