史安斌(清华大学新闻与传播学院副院长,教育部青年长江学者特聘教授)
刘亮(清华大学新闻与传播学院硕士研究生)
刊于《青年记者》2017年1月(上)
新闻是新近发生的事实,但在大数据时代,这条经典定义要被重新修订为“新闻是即将发生的事实”。社交媒体推特(Twitter)的联合创始人比茨·斯通(Biz Stone)在一次业内论坛上讲述了自己的亲身经历:他通过一条推文得知在100公里外的南方某处发生了地震,在几秒钟之后,他才真正感觉到了这场地震。这个例子形象地说明了数据信息采集给新闻业带来的冲击和变革。
借助于大数据技术的“预测性新闻”的兴起是近年来美国新闻业出现的引人注目的变化之一,从最初的体育、天气等消息资讯逐渐拓展到政治、财经、军事、科技、医药健康、国际事务等领域的深度阐释,其中尤以在大选报道中的应用受到了学界和舆论的普遍关注。这其中最具代表性的是538网站。在短短八年时间内,它由个人化博客发展为主流媒体旗下的细分网站,进而又发展为一个独立运作的综合性新闻聚合网站。538已经成为新兴的“预测性新闻”的代名词。但是,在波谲云诡的2016年,英国“脱欧”和美国大选等标志性事件对预测性新闻而言无疑是“当头棒喝”,暴露出了后者蓬勃发展中的积弊和隐忧,值得进行细致的回溯和反思。
538网站的发展历程
2008年3月7日,美国数据分析师奈特·西尔弗(Nate Silver)创办了一个以总统大选为主题的民调聚合博客。决定美国总统的选举人团共计538票,该博客因此而得名。在他看来,传统的政治新闻报道以立场和观点为核心内容,缺乏用精确的数据呈现真实民意。在此背景下,他将自己擅长的棒球比赛数据分析模型应用于对选情的预测,最终准确预测了49个州的选举结果。由此,538博客成为运用方兴未艾的大数据技术来革新政治新闻的成功尝试。临近大选尾声时,该博客的访问量和页面浏览量达到了2057万和3218万,在11月4日选举日当天,其独立访问量突破了500万大关。当时,538不过是一家个人博客,能取得如此高度的关注恐怕是西尔弗本人也没有料到的。
鉴于538博客对美国大选所作的准确预测及其对传统政治新闻所产生的颠覆性影响,其创始人西尔弗被《时代周刊》选为2009年最具影响力的100人。2010年,538网站并入《纽约时报》,成为后者旗下的一个细分博客网站。这对于双方来说是个“双赢”的选择:538网站借助于《纽约时报》的品牌效应进一步提升了其关注度;另一方面,《纽约时报》也借此引入先进的大数据技术来强化其政治新闻报道的前沿性。2012年的美国大选,538网站准确预测全部50个州的选举结果,名声大噪。据统计显示,538在“选举月”(11月)曾一度占据《纽约时报》网站总流量的20%。
2013年7月,为了获得更大的资金投入来拓展其业务,并且获得更高的内容和运营自主权,西尔弗带领538博客的原班人马转投ESPN旗下,由博客网站升级为独立网站,并于2014年3月正式上线,西尔弗被任命为总编辑。在ESPN的大力支持下,538网站大胆开疆拓土,不仅做政治新闻,还涉猎体育、科学、医学、财经和流行文化等诸多领域,以吸引更为多元化的受众群体,逐渐发展成为“预测性新闻”的旗舰媒体,西尔弗本人也被尊为“美国首席占卜师”。
据网站信息与排名公司Alexa的统计,538目前在全美网站中名列第62名,日均访问量在百万以上。网站访问量主要来自于美国本土,占比83%。从受众结构来看,男性访问者多于女性,约为后者的三倍,受过大学教育的人对538的关注度要高于其他人群。显而易见,538吸引的是本地化的高端主流人群,是众多风投公司和广告商眼中的“绩优股”。
另一方面,538网站也在逐渐拓展其全球影响力。它在“美国大选必看的网站”排名中高居榜首,其所提供的数据和图表被世界各大媒体转引,其中包括纽约时报、BBC等传统主流媒体和“赫芬顿邮报”等网络新闻媒体。人民网、新浪网、凤凰网等我国网络媒体也频繁引用538网站提供的数据。在短时间内获得获得这样的全球影响力,对于一家新兴网站来说实属不易。
538网站和预测性新闻的核心竞争力
538网站在短短八年时间里,在前沿技术和高端内容之间找准结合点,集聚起自身的核心竞争力,其中最为重要的一点就是使用大数据技术将静态事实转化为动态趋势,这也是预测性新闻的独特优势。首先,538网站大胆介入硬新闻领域,运用前沿技术开展内容和形式上的变革。在政治新闻领域,有关选举的报道关注度虽然较高,但形式上千篇一律、单调乏味。西尔弗选择以此作为切入点,用大数据技术为传统的政治新闻注入新鲜的活力。在他看来,大多数政治报道都是“旧瓶装新酒”,以不同的形式包装同样的故事,旨在掩盖其在内容上的贫瘠,这一点在选举报道中尤为突出。传统的选举报道往往是静态事实的陈述,例如“在某某州的民调中民主党的支持率领先于共和党”。这种机械的报道样式容易导致“接受疲劳”,而且在目前的技术条件下完全可以由新闻机器人来完成。预测性新闻则不同,它为受众呈现的是动态的趋势。即使数据预测过程会出现偏差,但只要是在合理范围内,受众也能够接受。预测性新闻的动态效应会激发受众持续性的关注,不断刷屏,这也是导致538网站在选举季获得超高访问量的主要原因。在538网站的带动作用下,Vox.com,The Upshot等数据新闻网站也都纷纷介入政治报道领域。
其次,除了报道和预测政治新闻之外,538也试图将这种数据分析的视角应用到其他领域,包括文化,体育、科技、健康等公众普遍关注的话题,为用户提供资讯服务。例如,538网站就曾搜集了600多万个航班的相关数据,详细分析了哪些机场、航空公司和航班路线最有可能按时到达,哪些航班将面临延误。用户可以在网站上输入自己的出发地和目的地,就可以快速得出可供参考的航班方案。
此外,538网站为了吸引千禧一代的用户,还设计了一些有趣的新闻游戏。例如,538推出了一个“输姓名知年龄”的游戏。它利用美国社会保障局提供的人口信息,得出不同年份或者年代的人出生使用的名字的频率以及年龄分布情况。例如根据Joseph这一名字,根据分析结果显示,取名为Joseph的美国男性公民中,大多数是在37岁左右。网站还提供了姓名及其所处时代之间的关联性分析,帮助千禧一代了解历史变迁。综上所述,以538为代表的预测性新闻网站尝试将大数据技术驱动的内容生产模式运用到各个不同领域的报道中,并由此开启了专业化、多元化发展的道路。
最后,538网站和预测性新闻的兴起也反映了网络新闻向“解释性新闻”回溯的趋势。解释性新闻源于20世纪30年代,在60和70年代达到顶峰,但在互联网和社交媒体时代“快餐”式新闻的冲击下日趋衰落。近年来,以深度内容阐释和趋势分析为核心内容、结合大数据和多媒体技术的新一代解释性新闻再度兴起。以538网站为例,它不仅为受众提供可视化的数据图表分析,开办了可以随时收听的播客,并且在Youtube和Facebook 上还设立了专门的直播频道,用多媒体技术定时为发布的预测进行深度阐释。在2016年的美国大选临近投票的最后阶段,西尔弗带领538团队对每个州的选举情况进行实时跟踪和分析。除了发布评论文章、分析图表和动态图文直播,还用通过轻松的对话方式在播客平台上解读数据分析的结果。不同于传统的文字逻辑主导的“解释性新闻”,538的报道以更加通俗易懂的呈现方式和互动性更强的全媒体界面设计,推动了解释性报道的革新,从而让政治报道从内容和形式上焕然一新,更能够吸引以“千禧一代”为核心的“战略性受众群”。
538网站和预测性新闻的产制模式
如上文所述,538网站引领了“预测性新闻”的潮流。尽管传统的新闻报道里也会涵盖预测性的内容,但其所做的判断大多是经验性的,是基于对曾经发生的类似事件的规律性总结。相形之下,预测性新闻是建基于实时的大数据采集,其科学性和准确性显然更胜一筹。
从运作模式上看,传统的新闻产制主要包括采访、写作、编辑和发稿等环节,记者的经验和直觉在其中起到非常重要的作用。换言之,资深记者能够凭借多年积累和培育的“新闻敏感性”在采编环节上占得先机。在预测性新闻的产制过程中,收集、分析和呈现数据成为最重要的环节,从根本上改变了传统新闻的产制模式。另一方面,这些数据往往是资深记者难以凭借经验观察和感知到的,因此从这个意义上说弥补了传统新闻产制中的“短板”,提升了新闻媒体“监测环境”的能力。
具体来说,预测性新闻的产制主要包括以下三个环节:首先是大量基础性数据的收集。这些数据的主要来源是各种不同规模的民意调查机构。由于选举历时较长,民调的频次也比较高,不同时间段的民意调查结果会产生差异。例如,仅在佛罗里达州538网站就收集了106次民调数据,在此基础上做出的预测显然比单次民调更为科学和准确。
其次是对基础性数据进行分析和筛选。由于选民的阶级、种族、性别、收入、受教育程度等人口统计学元素千差万别,因此在各州进行的民调结果也纷繁芜杂。传统的政治新闻报道所呈现的往往是碎片化的民意,难以让受众获得“窥一斑而知全豹”的传播效果。如何在海量数据当中挖掘出最有效的数据是预测性新闻产制的关键环节。538网站采用的一个重要方法是对每个民调机构进行评级,对不同州的民调样本数据进行加权,同时在处理这些数据时根据具体情境使用不同的模型(例如,polls-plus、polls-only、now-cast等等),这些做法显然有助于提升预测的科学性和有效性。
最后一个环节是呈现数据。538网站将经过复杂和缜密的算法得出的结果以可视化的图表附加文字报道的形式展现出来,同时配合播客等全媒体报道手段进行实时的分析和解读,从而将数据转换为引人入胜的故事和发人深思的洞见。在2016年美国大选中,538在其网站上以时间轴的方式标识出希拉里和特朗普在不同时间段的选票情况以及和预测的走向,当用户将鼠标移动至不同的日期时,就会动态显示两人支持率的变化,同时可以点击播客收听数据分析师做出的解读。
在预测的依据和基准上,538网站也拥有传统新闻媒体难以企及的优势。传统媒体的选举报道依靠知识渊博的专家、经验丰富的名记者和时政评论员、熟悉政治运作内幕的“名嘴”和“领头羊州”的民调等权威信源为基准做出预判。但无论这样的预测出自多么权威的信源,它都是“全豹”之“一斑”,都难免带有较强的主观性和浓厚的个人化色彩,科学性和准确性也相应较低。在这方面,538网站依靠大数据和全样本所做的判断更为客观而全面。在2012年美国大选中,538网站预测奥巴马胜出概率高达90%以上,而当时许多传统媒体依据个人化信源和“领头羊州”的民调则预测罗姆尼将会胜出。“形势比人强”这句话在538网站的预测中得到了鲜明的体现,而后者正是依靠数据对形势作出了更为客观和全面的把握。
538网站和预测性新闻的挑战与前景
尽管以538网站为代表的预测性新闻发展势头迅猛,但这并不意味着新闻业的标准和范式被彻底颠覆。数据化归根结底只是一种新闻的呈现方式,预测性新闻只是众多新闻产品的一个品类。大数据不能包打天下,更不能取代新闻本身。虽然预测性新闻前景广阔,但其面临的挑战也是异常严峻的,这在2016年美国大选中表现的更加突出。
首先,尽管538网站在美国大选中的关注度和影响力名列前茅,但要具备像《纽约时报》和BBC、CNN所具有的品牌效应,还有很长的路要走。一方面,538网站看起来过“专”过“窄”,辐射的受众范围有限,并未从根本上打破其“选举魔咒”——即选举过后,其关注度自然下跌。一般而言,受众通常都是在获取了一定的新闻背景之后再转到538网站看预测。因此,从内容的深度和广度来看,基于大数据的预测性新闻还比不上传统上基于故事和洞见的“解释性新闻”。因此,这两个品类相互融合的趋势也不断加强。目前美国已经出现了一些渐成气候的解释性新闻网站,如The Upshot、Real Clear Politic、Vox、Gap Minder、Crowdpac等等。这些细分化网站涵盖的领域更加广泛,在内容和形式上具有各自的独家优势。这些网站都会在不同层面对538网站构成新的挑战。
其次,预测性新闻并不能做到“百发百中”,对“大数据神话”的膜拜往往会导致对政治和社会复杂性的漠视。在2016年的美国大选中,538网站利用其独有的“水晶球”算法模型预测希拉里将以高达70%的概率当选美国总统。《纽约时报》旗下的The Upshot等预测新闻网站和“普林斯顿大学选举调查联盟”等民间研究机构也都无一例外预测希拉里获胜,他们预言的胜选概率最高达到了99%。但最终的结果却让所有人大跌眼镜,538等预测新闻网站和号称“美国首席占卜师”的西尔弗本人都遭到了巨大的质疑。
2016年大选的预测失灵使得人们逐渐认识到了预测新闻的局限性。有人形象地做出比喻,预测性新闻好像一艘在风平浪静的大海上航行的船只,尚待升级为能够抵御惊涛骇浪的旗舰。当今预测性新闻最大的缺陷是信源和路径单一,主要来源于民调样本。其中一些不确定性因素——如选民的情绪变化,接受民调时是否诚实,以及突发事件,等等——并未在预测中给予充分考虑。例如,联邦调查局在选前11天突然宣布重启对希拉里“邮件门”的调查,而在正式投票前一天又匆忙宣布对希拉里不予起诉。这番过山车般的“十月惊奇”对于选民心理的冲击很难在民调数据中得以准确体现。
此外,美国独特的“选举人团”制度也未能有效地体现在预测性新闻的算法模型中。实际上,希拉里的民选总票数比特朗普多了200万张,但特朗普在选举最后关头横扫“摇摆州”,从而在选举人票数上大获全胜。无怪乎西尔弗辩解说,从全样本的角度来讲,他所做的70%的概率预测并没有错,大选的结果也验证了这一点。但“水晶球”算法目前还不能精确到对各州选情小幅波动的监测,但正是这种“茶杯风暴”式的小概率事件成为压垮希拉里的最后一根稻草,而“水晶球”目前还无法准确研判出“稻草”的作用。
第三,预测性新闻应当做到以人为本,从这一点上而言,其重点应当落在“人性”,而非“数据”。预测性新闻虽然涵盖的范围越来越广,但大数据并不是包打天下的万能钥匙。2016年大选不是538网站首次遭遇“滑铁卢”,2014年它曾对失踪航班MH370进行过报道。但效果并不理想,数据统计工具并不能比那些马来西亚官员更为明确地回答关于失踪客机的下落。
预测性新闻能够运用大数据技术把握到“形势比人强”,但这并非是说“人”完全可以被取代。新闻工作者在获取数据之后还需到现实生活中去进行深度采访。在新闻产制的过程中,数据充当着工具性的辅助角色,“人”仍然是核心。因此,具有丰富经验和敏锐新闻感的资深记者要与数据分析师进行有效合作,才能生产出高质量的预测性新闻。
在2016年大选后,一些有识之士开始对预测性新闻的缺陷进行大胆的改革。例如,从过去单纯依赖民调等由态度和情感等不确定因素决定的机制,转而寻找更为可靠的依据。一些预测性新闻网站开始关注人类的群体行为。538网站与麻省理工学院的数据科学家共同合作来改进“水晶球”模型。这个新的算法程序可以在2到12个小时内通过数据建模来预测人类的行为,如果通过人工去做这些预测,可能要耗时数月。通过对群体行为的分析,我们可以预知从战争到气候变化等与人类行为密切相关的新闻事件。具体而言,新闻工作者可以借助于数据预测到哪里将会爆发武装冲突,哪里会出现能源危机。总而言之,无论技术如何演进,新闻的本质不会改变。预测性新闻的焦点仍然是“新闻”,而不是对“数据”的依赖和膜拜。在世界风云不断变幻的当下,如何通过大数据技术实现“形势”与“人”的因素的完美融合,这是预测性新闻下一步努力的方向。
参考文献
the dailybeast.com/articles/2012/11/10/why-i-started-fivethirtyeight.html
.Patrick Gillespie:FiveThirtyEight,' 'The Upshot' and Vox Bet Big on Explanatory Journalism, MAR 25, 2014: http://mashable.com/2014/03/25/data-journalism/#8GEVlbS7ukqK
Napoli, Philip. Audience Evolution: NewTechnologiesand the Transformation of Media Audiences. New York:Columbia University Press. 2011
.fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast
.Hillygus D S. The Evolution of Election Polling in the United States[J]. Public Opinion Quarterly, 2011, 75(5):962-981.
.www.nytimes.com/2016/11/10/technology/the-data-said-clinton-would-win-why-you-shouldnt-have-believed-it.html
.Hillygus D S. The Evolution of Election Polling in the United States[J]. Public Opinion Quarterly, 2011, 75(5):962-981.
.Tanveer Ali:The pitfalls of data journalism, Columbia Journalism Review, MARCH 21, 2014
.Pete Vernon: FiveThirtyEight’s ‘Whiz Kid’ Harry Enten represents the new generation of political journalist, Columbia Journalism Review, OCTOBER 5, 2016
赞赏
人赞赏
热门跟贴