祝大家七夕快乐,然后我们来到本期主题:「男人活的不如狗

作为数据背景,让我们回顾下「泰坦尼克」

打开网易新闻 查看精彩图片

1912年4月15日凌晨,泰坦尼克号沉没,其中男性乘客总计 843 人,其中 161 人存活,生还率为19%,低于狗

打开网易新闻 查看精彩图片

作为对比,船上的12只狗中活了3只,生还率为25%

打开网易新闻 查看精彩图片

所以啊...男人终究还是活的不如狗

在电影《泰坦尼克》中,穷画家 Jack 生的机会让给了贵族小姐 Rose,让世界记住了他们的爱情...

打开网易新闻 查看精彩图片

但做了数据分析后才发现,Rose 的幸存不单单是因为爱情

这两天拿到阿里瓴羊"智能小Q"的内测权限(没错,还没发布),我把 OpenML 上的泰坦尼克数据集传了进去...结果发现:

  • Jack 的死亡几乎是注定的:作为三等舱的男性,Jack 的生存率只有 16%
  • Rose 的存活也几乎是必然:作为一等舱的女性,Rose 的生存率高达 97%

打开网易新闻 查看精彩图片

即使他们从未相遇,结局可能也是一样的

那么,这些冰冷的数字背后,隐藏着哪些神奇发现呢...

有钱人真的“优先逃生”吗?

一等舱的男性生存率是多少?答:34.1%

打开网易新闻 查看精彩图片

等等,头等舱男性才33%的生存率?

我继续追问:“三等舱女性的生存率呢?” 答:49%

打开网易新闻 查看精彩图片

三等舱女性(49%)的生存率,竟然高于头等舱男性(33%)

看来,“妇女儿童优先”的原则,比“阶级优先”更加严格执行

“票价能买命吗?”

“票价超过100英镑的乘客生存率?”71.4%

打开网易新闻 查看精彩图片

“票价在100英镑以内的乘客生存率?”32%

打开网易新闻 查看精彩图片

有钱能使鬼推磨,成不我欺

登船港口预示命运

打开网易新闻 查看精彩图片

  • Cherbourg(法国):55.6%
  • Queenstown(爱尔兰):35.8%
  • Southampton(英国):33.3%

Cherbourg多是富人度假,舱位等级高;Queenstown挤满爱尔兰移民,大多在三等舱

二等舱男性最惨

拉了下统计,二等舱男性的生存率仅为 14.6,这甚至比三等舱还低

打开网易新闻 查看精彩图片

只算成年男性呢... 这一比例则更进一步,落到了8.4%

打开网易新闻 查看精彩图片

至于为什么?瞎猜一下...

  • 头等舱男性虽要"绅士",但离救生艇近
  • 三等舱男性破釜沉舟往上冲
  • 二等舱男性?既要照顾妇女儿童,位置又不占优势

然后,我把泰坦尼克上所有年龄段的存活率,都算了下(已人工校验,无误):

  • 老人:30%
  • 成年男性:18.5%
  • 成年女性:76%
  • 少女:82.1%
  • 青少年:47.6%
  • 儿童:56%

可见:少女>儿童>成年女性>成年男性>老人>男人

对了,这里漏了宠物狗:25%

所以是:少女>儿童>成年女性>成年男性>老人>狗>男人

淦...

想到了一个奇怪的ppt

打开网易新闻 查看精彩图片

「大数据驾驶舱」

为了更明显的看这些东西,用 Quick BI 做了个「大数据驾驶舱」

(啊啊啊啊啊,这奇怪的名字)

打开网易新闻 查看精彩图片

链接在这...但似乎只有我自己能访问(毕竟这产品还没公开)

https://pre-bi.aliyun.com/token3rd/dashboard/view/pc.htm?pageId=e81333fa-3325-4a92-b8a8-3543c5dee0d4&accessToken=204b4c5a553c5afc4979220b318eddfc&dd_orientation=auto&qbi_version_param=1

然后顺道说一下, Quick BI 这东西像啥呢,大概就是偏向 BI 工具的 Big Query ,类似 Power BI和 Tableau

然后不同于这几个工具,为了更贴合本土需求, Quick BI 加了很多中国特色的功能,比如上面的大数据驾驶舱,可以用于销售管理、电商运营、门店运营这种总是被老板逼逼的东西

回到最初的问题

Jack真的是因为穷才死的吗?

做了点分析后,发现:不完全是

如果Jack是个三等舱的女性,生存率49%,比头等舱男性还高

打开网易新闻 查看精彩图片

如果Jack是个孩子,即使在三等舱也有34%的机会

打开网易新闻 查看精彩图片

但他都不是,作为15~25岁的三等舱男性,Jack 逃生的几率只有15.3%

打开网易新闻 查看精彩图片

数据不煽情,不浪漫,但能告诉你最真实的信息

然后在有 AI 加持之下,我们找到这些信息会更简单

最后,鸣谢

工具用的是阿里瓴羊的"智能小Q",是阿里巴巴首个分析Agent,由问数、解读和报告三大核心Agent组成,并将于9月9日正式向外界开放:

数据用的是 OpenML 上 Titanic DataSet,包含1309名乘客的完整信息

https://www.openml.org/data/download/16826755/phpMYEkMl

宠物信息,来自维基百科

https://zh.wikipedia.org/wiki/%E9%90%B5%E9%81%94%E5%B0%BC%E8%99%9F%E4%B8%8A%E7%9A%84%E5%8B%95%E7%89%A9