打开网易新闻 查看精彩图片

易烊千玺杨紫、肖战被AI偷脸之后。

AI又把手伸向了素人。

打开网易新闻 查看精彩图片

AI的脸,千篇一律

本来以为AI只会偷明星的脸,没想到现在连素人也不放过。

一个素人博主自己拍的汉服照片出现在了短剧《桃花簪》中。

打开网易新闻 查看精彩图片

不管是外貌、衣服还是妆容,都和自己的照片极其相似。

但是,剧里的这个人物却是被形容为“游手好闲,好色,浑身上下透着龌龊”。

打开网易新闻 查看精彩图片

除了他,另一位博主也发现自己的脸也出现在了短剧里。

打开网易新闻 查看精彩图片

而AI自己生成的脸更是透露着一种人山人海的诡异感。

前段时间出道的AI演员,女的神似赵今麦和张子枫混合体,男的则撞脸翟子路。

面对撞脸争议,幕后人员却说形象是完全按角色需求来的,并没有刻意参考任何真人。

不管是游戏还是短剧,只要跟AI沾上边,即便角色形象要求是独创的,但AI最终生成的脸仍然非常网红化。

尤其是多人同框时,更呈现“人山人海”的诡异感。

打开网易新闻 查看精彩图片

落户北京的AI虚拟偶像YURI,大眼睛、高鼻梁、尖下巴、无瑕疵皮肤,看上去感觉和抖音网红博主没什么区别。

小红书虚拟博主AYAYI也是典型的网红脸,极其协调的五官和标准的身材让她让她一个月内涨粉5万。

打开网易新闻 查看精彩图片

还有韩国第一虚拟网红Rozy,看起来也是那种能在小红书上火的颜值博主。

打开网易新闻 查看精彩图片

按理说,AI的素材库应该很丰富才对,但为什么生成的人脸仍然跟网红一样同质化严重?

打开网易新闻 查看精彩图片

AI审美也网红?

AI这么做,主要是为了保证像人。

生成人脸的时候,AI首先要保证脸部结构稳定,五官要对称,位置不能偏。

因此AI在抓数据的时候,自己也会生成一张“人脸概率地图”,地图上每个点代表一种人脸特征,虽然也会抓取到一些独特的特征,但是AI 是会忽略的。

因为过往的反馈表明,一旦尝试增加多样的局部特征,生成的脸会很奇怪。

打开网易新闻 查看精彩图片

人脸是一个整体,真实的人脸上一些不一样的点,永远不会孤立出现,而是会伴随着一系列协同变化。

比如一个大小眼的人,眼睑的褶皱深度、眉毛的高度可能会同时不一样。

这些协同变化共同构成了一个自洽的整体,因此在现实中,即便你看到一个大小眼的人也不会觉得奇怪,因为整个脸都在配合这个特征。

但AI生成人脸时,内部表示是高度解耦的,它可以独立调整某个局部,但很难同时自动调整所有相关的协同维度。

结果就是,它生成的大小眼就是单纯的眼睛大小不一样,眼睑没变,眉毛没变、鼻梁没变。

没有任何伴随特征,人在看到这种脸的时候自然会觉得不像人。

打开网易新闻 查看精彩图片

所以为了避免风险发生,AI会自动收紧生成空间,忽略独特性,选择最安全的输出空间——网红脸

因为人类感知上,网红脸处在恐怖谷的远端,容错空间大。

一般来说,越像真人的脸,人类对微小的缺陷越敏感。

但网红脸已经是一种人造模板了,它的五官比例、脸部结构已经高度模式化,人类潜意识会把它归类为“半人造物”。

所以,网红脸的容错标准会比真实人脸更宽松。

因为即使生成时出现轻微瑕疵,你也只会认为是滤镜没调好,而不会认为它不像人。

就像小红书博主AYAYI。

她是一个有着网红脸的虚拟人,虽然目前已经确认是数字人,但之前网上对她到底是不是人的讨论却是络绎不绝。

而且,在生成过程中收到的反馈让AI逐渐变成了一个“胆小鬼”。

输的出和真实人脸不一样会扣分,输出的不像任何真实人脸会被大量扣分。

在这种机制下,AI会变得极其保守,宁可输出一张平庸但绝对像人的脸,也不要输出一张有特色但可能翻车的脸。

最终结果就是,AI也审美窄化了,所有的概率都压缩在了最大公约数区域——网红脸上。

打开网易新闻 查看精彩图片

多样化是AI的“反人性”?

现在很多制作公司都开始发力AI演员,还传出了“男二以下全用AI”的言论。

但就像上面说的,一旦都变成AI,那我们就真的很难看到多样化的面孔了。

并不是AI不能生成多样化的脸,而是它的底层运行逻辑天然与多样化为敌。

AI学到的所有内容都来自数据,主流人脸数据集的构成比例大致是:

80%是年轻、正面、主流的脸,剩下20%是疤痕、外鼻梁、不对称这些非常规特征。

统计学规律让它必须优先保那80%的主流特征,那特殊的20%则被自动忽略。

因为多样化意味着探索低概率区域,而低概率=高惩罚,AI学到的策略就是,宁可同质化严重,也不能冒险犯错。

打开网易新闻 查看精彩图片

而且,当前的AI其实也很难把人脸的所有特征都总结出来。

假设人脸特征可以用100个维度来描述。要让AI在每个维度上都学会“可以有多种可能”,需要的训练样本量是指数级增长的。

一个维度有10种变化就需要10个样本,100个维度就需要10¹⁰⁰个样本。

而现实中,AI的训练集只有几十万张人脸,所以它只能保留那些最稳定、最共性的特征,把所有不常见的组合当作噪声丢弃。

打开网易新闻 查看精彩图片

从模型看,AI使用的训练是梯度下降的,也就是沿着误差下降最快的方向走。

这个方向指向的永远是误差曲面的谷底,而谷底就是所有样本的平均。

在第一步梯度,它会把输出拉向所有人的平均脸;第二步会微调向某个群体的平均脸;在最后,则会停在“局部最优”,也就是网红脸,本质上还是最大众的那一类,所以一旦AI脸多了,看起来就会“人山人海”。

打开网易新闻 查看精彩图片

AI天生是平均主义者和保守主义者。

不是说它不能多样,只是这需要它反直觉、反数据,相当于让一个经过严格训练的会计去搞即兴涂鸦,这会破坏它的默认运行模式。

AI生成千篇一律的网红脸不是因为没创意,而是在现有的技术下,千篇一律才是它的最优解。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片