打开网易新闻 查看精彩图片

各位刘亦菲和吴彦祖,这年头找一个专一的丑男还是花心的帅男,你选哪一个?

 帅哥普遍是浑蛋?大数据表明:是的!
打开网易新闻 查看更多视频
帅哥普遍是浑蛋?大数据表明:是的!

本视频来自腾讯视频@街头逗趣秀

你或许听朋友抱怨过,当和帅哥出去约会时,常常发现这个人是个浑蛋;而当感觉某个人品质很好时,见面却发现这个人外表欠佳。

为什么鱼和熊掌不可兼得?

一种常见的解释是,长得帅的人常常借助良好的外貌大行便利,以此获得较高的曝光度和社会地位,也更容易成为女性选择的对象,因此能够承担得起成为浑蛋的代价,也就是“拥有渣的资本”

我们也可以从大数据看,就会发现还有另一种可能。

数学家乔丹·艾伦伯格帮我们抽调了很多样本,做了一个二维图表,横轴表示品质,纵轴表示帅气——

打开网易新闻 查看精彩图片

不难看出,无论帅不帅,都有成为浑蛋的可能性。长得帅丑和品质好坏没有必然的因果,只是相关,并且取决于我们选择比较的对象。如果我们把长相换成“学历”或者“家庭条件”,上图依旧可以说得通。

反正都有可能是“渣男”,那不如找个帅的?

打开网易新闻 查看精彩图片

现实往往比数据有趣。在你想要约会的男生中, 一个非常帅的男生不太可能比你愿意约会的普通男生品质更好,一个品质好的男生也不太可能比你愿意约会的普通男生更帅气。

听起来有点绕,这就是伯克森悖论在起作用——因为同时选择了品质和帅气作为考察范围,所以在你愿意约会的对象中品质和帅气产生了一种负相关性。

打开网易新闻 查看精彩图片

我们再增加一个条件:不愿意和你约会的人

打开网易新闻 查看精彩图片

这样,你会发现,不愿意和你约会的人和你不愿约会的人都占了很大比例,而你愿意约会和愿意与你约会的人,只有中间那一条狭长的区域,而且这部分还呈现很强的负相关性,也就是长得帅的品质不好,品质好的长得丑。如果你真的遇到了那种品质好又长得帅的,可能是撞大运了。

这就符(万)合(分)现(扎)实(心)了。

打开网易新闻 查看精彩图片

在这种双难的困境里,找一个帅的浑蛋,或者是一个普通好人是比较容易实现的。或者,这个男的要么可以帅得让我们忘记他是浑蛋,要么好到让我们忘了他长得一般

所以,帅哥是浑蛋,也是真的。只是,我们需要认清的是,这里的结论是基于相关性结论而不是因果关系结论

因为房价高,所以年轻人不想结婚生孩子?

因为经常吸烟,所以吸烟者更容易生病?

因为我们经常熬夜,所以我们变得很胖?

这些常见的表述都不是因果关系,而是相关关系

生育率低和高房价有一定关系,但不想生育的理由还有很多其他相关性因素。

但媒体往往不会做这样的区分。

在生活中,我们看到的通常都是已经经过加工的信息,他们只会释放他们愿意给人们看到的信息,比如无效的因果关系选择性偏倚无效的数据可视化等

打开网易新闻 查看精彩图片

常见的数据可视化胡扯往往潜伏在各类PPT模板中,比如这幅创意可嘉、但并无必要的羊角百分比图

这些,就是“胡扯”。只是相比传统意义上的胡扯,现在人们更擅长用华丽的数据和图形包装他们的信息,我们称为“新型胡扯”

在当今,“数据已经成了胡扯者的杀手锏”。哪怕收集的数据是正确的,只要没有把它们放在合适的语境中,没有用正确的方式让读者或听众能够正确地理解它们,那这些数字就有可能会成为某种意义上的“胡扯”。

比如在统计疫情数据时,我们往往最先听到“新增确诊人数”,而往往会忽略“新增无症状”这一更值得关注的指标,因为每一个“无症状”实际也为感染者。

这类表述在媒体报道中屡见不鲜,《拆穿数据胡扯》一书中罗列了很多案例:

媒体关于人工智能的危言耸听与人工智能研究的实际情况相去甚远”

“在20世纪的大部分时间里,媒体上的数据可视化要么只显示单一的变量,如饼形图,要么显示变量如何随时间变化。”

媒体将这些句子歪曲成戏剧性的故事。”

“我们最终在大众媒体和社交媒体上了解到的科学研究有非常明显的选择偏倚。”

如何在五花八门的信息噪声中获取我们想要的信息,这才是重中之重。

打开网易新闻 查看精彩图片

拆穿数据胡扯

【美】卡尔·伯格斯特龙,杰文·韦斯特 著

胡小锐 译

中信出版集团

2022年3月

我们如何辨别胡扯?

1. 质疑信息来源

英国媒体称中国的居住条件堪忧,说北京四合院是“贫民窟”,并大肆宣传……

国人都会觉得可笑,北京四合院动辄就是上亿的价格,普通人一生都无法企及。但凡对英媒普遍的报道风格有点了解,都会质疑这类信息的真实性,因为他们经常做片面的宣传。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2. 小心不公平的比较

《机场安检托盘里的细菌比厕所还多》,世界各地的媒体都曾刊登过这条新闻或做了类似报道,这让每个经历过机场安检的恐菌者确信他们的担心是有道理的。

但这种说法有些不诚实。做这项研究的科学家只观察了呼吸道病毒,即那种通过空气传播,或者通过咳嗽或打喷嚏时手上沾染的飞沫传播的病毒。安检托盘上的呼吸道病毒比马桶座圈上的多,这并不奇怪,因为人们通常不会对着马桶咳嗽或打喷嚏,也不会经常用手去触摸马桶座圈。马桶座圈上有很多微生物,只不过不是研究人员统计的那些。

打开网易新闻 查看精彩图片

3. 如果好得或者糟糕得离谱

2017年年初,特朗普政府制定了一系列限制赴美旅行和移民的政策。这些政策影响到了美国生活的许多方面,包括高等教育。2017年3月,美国国家广播公司(NBC)新闻节目在推特上就这些政策变化导致的后果发了一条消息:“调查显示,留学生入学申请人数下降了近40%。”

这条推文链接了一条新闻,在推特上被广泛转发。但它提出的论断似乎难以置信。当然,特朗普的旅行禁令和美国移民政策的相关变化不太可能让人觉得美国欢迎留学生。不过,申请人数下降了40%,这一灾难性的结果让我们感到难以置信。不仅是影响的规模巨大,而且从时间上看非常可疑。很多美国大学的留学申请在12月或1月到期,当时特朗普还未上任。因此,我们持怀疑态度。

打开网易新闻 查看精彩图片

4. 从数量级考虑

美国国家地理学会曾发出一封邮件,提醒人们塑料垃圾正在污染我们的海洋。邮件的标题声称:“每年有90亿吨塑料垃圾流入海洋。

这听起来十分可怕,但请停下来想一想。地球上只有不到80 亿人。每个人平均每年向海洋倾倒一吨塑料垃圾,这真的有可能吗?似乎不太可能。事实上,纵观整个历史,塑料的生产总量只有大约80亿吨,不可能所有的塑料都流入海洋吧。显然,每年90亿吨这个数字是错误的。正确的数字是多少呢?我们并没有什么理由怀疑这个错误是故意为之,而是怀疑在这封邮件出台的过程中,有人不小心把“100万”(million)打成了“10 亿”(billion)。

打开网易新闻 查看精彩图片

以上这些内容都来自华盛顿大学火爆公开课《拆穿胡扯》(Calling Bullshit)。课程信息在大学网站上一发布,便引发强烈反响,一夕之间,来自传统媒体、新媒体、机构、中学、大学以及个人的询问邮件多达2万封,挤爆了邮箱。为什么一门尚未开设的课程会成为一个“爆品”?

因为大家苦于“数据胡扯”已久,在当今社会,科学知识成为广受青睐和信赖的主要信息,但这也为信息噪声大开方便之门。过去,学术噪声以华丽的辞藻和耸人听闻的话语作为伪装;今天,科学噪声则把自己包装成大数据和神奇算法的模样。

《拆穿数据胡扯》就脱胎于这门火爆的公开课,并保留了它的辛辣原名。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

《拆穿数据胡扯》目录

如何撕下数据噪声的科学外衣,如何胡扯的世界里做个游刃有余的明白人?

让我们一起来拆穿数据胡扯。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片