打开网易新闻 查看精彩图片

大数据文摘出品

有将近40万人订阅了YouTube账户Rob the Robot-Learning Videos For Children。

这是一档儿童节目,在2020年的一个视频中,这个卡通人物和他的朋友们参观了一个以体育场为主题的星球,并在Heracles的启发下尝试了许多壮举。

打开网易新闻 查看精彩图片

然而,在YouTube自动字幕中,却为这个儿童节目识别出了这么一句台词:“strong and rape like Heracles.”(像赫拉克勒斯那样强壮和强暴)。

显然,这对儿童来说是不合时宜的。

一项针对儿童视频的YouTube智能字幕的新研究证明,视频中的文字有时会变成非常“成人化”的语言。

打开网易新闻 查看精彩图片

儿童频道成为“污言秽语”重灾区

在对24家排名靠前的儿童频道的7000多个视频进行的抽样调查中,40%的视频的字幕包含1300个“污言秽语”词汇。

在大约1%的视频中,字幕包含了16个“非常不恰当”的词汇,YouTube的算法最有可能添加“bitch(婊子)”、“bastard(杂种)”或“penis(阴茎)”等词。

打开网易新闻 查看精彩图片

瑞安世界(Ryan ' s World)上发布的一些视频说明了这个问题。

瑞安世界是一个顶尖的儿童频道,订阅者超过3000万。在其中一篇文章中,“You should also buy corn(你也应该买玉米)” 这句话的字幕被翻译成 “You should also buy porn.(你也应该买色情片)”。

打开网易新闻 查看精彩图片

在其他视频中, “beach towel(沙滩毛巾)”被抄写成“婊子毛巾(bitch towel)”,“buster(小家伙)”变成“bastard(杂种)”,“crab(螃蟹)”变成“crap(废话)”,还有一个制作怪兽主题玩具屋的手工视频以“bed for penis(阴茎床)”为特色。

打开网易新闻 查看精彩图片

80%的11岁以下孩子观看YouTube

罗切斯特理工学院(Rochester Institute of Technology)助理教授阿什克·库达布赫什(Ashique KhudaBukhsh)表示:“这令人震惊和不安。”他与海德拉巴印度商学院(Indian School of Business)的克里西卡·拉梅什(Krithika Ramesh)和苏米特·库马尔(Sumeet Kumar)合作研究了这个问题。

自动字幕在YouTube Kids上是不可用的,该服务的目标用户是儿童。 但许多家庭使用标准版本的YouTube,在那里可以看到他们。皮尤研究中心(Pew Research Center)在2020年报告称,11岁以下孩子的父母中,80%的人表示,他们的孩子观看了YouTube内容,超过50%的孩子每天都这样做。

打开网易新闻 查看精彩图片

库达布赫什教授希望这项研究能引起人们对一种现象的注意,他说这种现象几乎没有得到科技公司和研究人员的注意,他称之为“不恰当的内容幻觉”——算法添加了原始内容中没有的不合适的材料。

人们普遍认为,智能手机上的自动补全功能往往会过滤成人语言,但事实却并非如此。

对此,YouTube发言人杰西卡·吉比(Jessica Gibby)表示,建议13岁以下的儿童使用YouTube Kids,那里看不到自动字幕。

她说,在YouTube的标准版本上,这个功能提高了可访问性。她说:“我们一直在努力改进自动字幕,减少错误。”Pocket的发言人Alafair Hall说。

儿童娱乐工作室Watch在一份声明中表示,该公司“正与YouTube等平台合作伙伴保持密切联系,后者负责更新任何不正确的视频字幕。”