你上传的自拍,可能正在训练别人的算法。2014年,OkCupid把300万张用户照片打包送给AI公司Clarifai,这事最近才彻底收场。

一条邮件牵出的数据交易

打开网易新闻 查看精彩图片

路透社看到的法庭文件显示,Clarifai创始人兼CEO马修·泽勒(Matthew Zeiler)当年给OkCupid联合创始人麦克斯韦·克罗恩(Maxwell Krohn)发了封邮件。

「我们正在收集数据,刚意识到OkCupid一定有大量超棒的数据可以用。」

这句话成了关键证据。泽勒的「刚意识到」翻译过来就是:你的用户数据很值钱,我们想拿来做生意。

更微妙的是利益关系——OkCupid的高管当时已经投资了Clarifai。用自家平台的数据给被投公司输血,这笔账怎么算都不亏。

OkCupid照做了。300万张用户上传的照片,连同人口统计信息和位置数据,一并打包送出。

问题是,这违反了OkCupid自己的隐私政策。用户协议里没写「你的脸可能会被拿去训练人脸识别模型」,但平台还是这么干了。

Clarifai拿这些数据做了什么

Clarifai用这批照片训练了一套人脸识别系统。功能很直接:看一张脸,估算年龄、性别、种族。

这套系统背后的商业逻辑也不难猜。2014年正是计算机视觉创业潮,谁能做出准确的人脸分析工具,谁就能拿到安防、营销、金融场景的大单。

但数据来源的灰色地带,几乎没人追问。直到2019年,《纽约时报》一篇报道捅破了窗户纸,美国联邦贸易委员会(FTC)才立案调查。

从数据交易到监管介入,隔了整整5年。

为什么现在才删

Clarifai最近确认,已经删除了全部300万张照片,以及所有用这些数据训练出的模型。

删得这么彻底,是因为FTC上个月刚和OkCupid、Match Group达成和解。虽然这两家公司没有承认「欺骗用户」的指控,但Clarifai的删除动作等于间接认了账——照片确实拿过,模型确实练过。

FTC的调查发现,从2014年开始,Match Group和OkCupid一直在刻意隐瞒这件事,还试图阻挠调查。

最终处罚是:永久禁止OkCupid和Match「就数据收集和共享的性质作虚假陈述,或协助他人作虚假陈述」。

听起来严厉,但FTC对这类首次违规其实没法罚款。禁令内容本质上就是把本来就违法的事,再强调一遍不能干。

清单:这件事暴露的五个问题

一、隐私政策的文字游戏

OkCupid的隐私政策明摆着禁止这种行为,但平台照做不误。用户同意的那几页密密麻麻的条款,到底约束的是谁?

更讽刺的是,违规方最终没有承认欺骗。法律层面的「不承认」和事实层面的「确实干了」,可以同时成立。

二、投资关系的利益输送

OkCupid高管投资Clarifai,再用平台数据给被投公司赋能。这种「左手倒右手」的架构,在创投圈不算新鲜事。

但当倒的是用户隐私数据时,利益冲突就变了性质。用户不是股东,没同意过这笔交易。

三、AI训练数据的黑箱

Clarifai删了照片和模型,但过去十年间,这套人脸识别系统有没有被商用?有没有被集成进其他产品?有没有衍生出新的模型?

FTC的文件没提,Clarifai也没说。数据一旦进入训练流程,影响范围就很难追溯。

四、监管的滞后性

2014年交易,2019年立案,2025年才和解。11年周期里,人脸识别技术已经从实验室走向大街小巷。

FTC的禁令只能管未来,管不了过去已经扩散的影响。这种「事后追责」模式,对快速迭代的AI行业明显吃力。

五、删除≠没有发生过

300万张照片删了,但训练出的人脸分析能力,可能早就内化成Clarifai技术栈的一部分。模型权重可以删,工程师的经验和代码里的trick删不掉。

更现实的疑问是:如果没有《纽约时报》报道,这件事会被追查吗?

数据收束

300万张照片,11年沉默,零罚款。OkCupid和Match Group的代价是一道禁令——禁止再做本来就违法的事。

Clarifai删了数据,但人脸识别市场已经长成数百亿美元的产业。这桩旧案的真正价值,是暴露了一个长期存在的套利空间:在用户不知情时拿走数据,在监管介入前完成技术积累,在舆论发酵后低调善后。

对25-40岁的科技从业者来说,这件事的启示很具体。如果你在做AI产品,训练数据的来源清单能不能经得起审计?如果你在平台型公司,数据共享的决策链条有没有利益冲突的防火墙?

FTC的和解文件里没有罚款数字,但有一个明确信号:数据交易的旧账,现在开始查了。