在流量为王、碎片化阅读趋势愈发明显的时代,用户注意力被各种信息切割得支离破碎。在数据新闻领域,澎湃新闻“澎湃美数课”栏目以设计为突破口,探索出一条能让信息快速有效传达的新路子。美数课团队曾获美国新闻媒体视觉设计协会(Society of News Design,SND)、最佳数字设计奖(Best of Digital Design)、亚洲出版协会卓越新闻奖、Sigma数据新闻奖、等众多国内外奖项。

从开创栏目至今,吕妍在数据新闻领域已经深耕了多年。自2014年7月上线,“澎湃美数课”秉持“数字是骨骼,设计是灵魂;与新闻相关,又与新闻无关”的理念,已发布超2500篇作品,覆盖社会民生、自然科学等多领域。面对碎片化的趋势,吕妍以设计为突破口革新栏目,她组建国内首个融合调查记者、数据科学家与交互设计师的跨界团队,以“三维叙事”重构数据新闻。

AIGC兴起后,吕妍和团队也在积极探索。比如,他们在作品中用AI开了一个脑洞,试图与经典电影角色对话。在中用AI来重现那些不为大众熟知的为AI发展作出贡献的女性。

澎湃新闻是如何做数据新闻的?在AI时代,中国的数据新闻创作又有了哪些新特征?新闻学子又该立足时代背景学习数据新闻?

带着这些困惑,深度训练营与吕妍进行了一次对话。

澎湃新闻数据新闻团队账号(图片来源于公众号截图)

Q:如何看待数据新闻在不同内容生态中的定位和发展潜力?

A:数据新闻这个领域,先天条件并不是很差。我的意思是,假如和短剧对标,数据新闻的受众面肯定窄得多。但如果与纪录片对标,也许会宽一点。在新的语态下,内容产品都是有新机会的,只是池子大小的问题。现在用户池子最大的内容品类可能是短视频,它占据了大家最多的时间。但做内容也不是需要全部在一个池子里面“卷”,要发挥比较优势,在一个大小合适的池子里取得相对头部的地位,然后把这种优势落地到各种场景,尽量完成内容转化的链条就很好

我认为未来是一个数据化的社会。举个例子,澎湃新闻自2018年开始打造“湃客频道”这个外部创作者平台,我负责挖掘数据领域的账号,当时我本以为这类账号只有大概二三十个,毕竟那时专注于数据新闻创作的主体数量看起来并不多。然而,仅仅八个月时间,我们便挖掘到将近100个相关账号。由此可见,许多创作者甚至不了解“数据新闻”的概念,但其从事的工作却是与之高度相似的。这些创作者可能是研究者,对所在领域的数据内容进行专业解读;也可能是垂直领域的账号运营者,通过可视化手段在自身领域内赢得竞争优势。

这个经历给了我极大的信心,因为我意识到,在“数据新闻”的概念之外,还存在“数据创作”“数据内容”等范畴。这是一个有用的形式,也吸引了不同身份的创作者在他们各自的领域和视野中去运用。因此,我始终认为,我们应以更广阔的视角看待这一内容创作形式。况且在数据化社会中,每天都会有海量数据产生,这对信息传播也提出了新要求。

Q:你认为数据新闻团队要具备哪些特质?

A:我们团队一方面保持着快速上手的习惯,另一方面较为务实,期望将技术应用于契合实际需求的事情中。从长期发展的视角来看,若仅仅依靠噱头,难以持久。

当然,数据新闻实际上还存在许多种发展路线。数据新闻这一领域有吸引力,原因之一是它具有很强的延展性:它能与用户紧密结合,呈现形式千变万化;它也能够产出深度的内容,或是产出以数据驱动的硬核内容。

当前,能够出色开展数据新闻工作的团队数量并不多,这是涉及对团队成效进行评估的问题。近些年,媒体行业已不再是过去疯狂扩张、大量投入的阶段。在当下具体的媒体环境中,无论是通过打造影响力还是商业化变现来证明自身能力,走什么样的路,其实都是因团队而异的。

Q:针对数据新闻,目前团队有哪些新的探索?

A:我们团队的核心使命不仅仅是聚焦数据相关事务,而是致力于技术与内容的融合,这是团队基因的延续。AI作为一项核心技术,自然是我们跟进的重点。

我们对自身的要求,是要更懂数据。要知其然,更要知其所以然,同时对数据的跟进需更加及时。举个例子,在数据快讯方面,一旦有数据披露,我们便会第一时间发布相关内容。此外,我们还将开展一些新尝试,不仅关注数据本身,还会探究数据的产生过程以及应如何解读,更多地在叙事手段、创作形式上探索。

未来社会将高度数据化,尤其随着AI自动化完成任务能力的提升,人们更需要具备对其数据内容资料准确性的辨别能力。因此,我们觉得当下培养数据素养已成为一个值得重点关注的问题,是时候投入更多精力去深耕这一新阶段了。

Q:在选题策划阶段,会考虑技术的介入吗?

A:技术并非核心考量部分,主要起到辅助作用。当前我们工作重点更聚焦于选题策划,相较于以往简单的数据查询与甄别,现在更需深入思考与衡量“什么才是解决问题的关键”。这并非通过培训就能实现,团队成员需要通过深挖领域来积累经验,与专业人士交流合作。

每个难题都有不同的解决方法,经验很重要。踩的坑多了,在一个新的坑到来之前自然就能预判到,或者能在新坑出现的时候知道该怎么解决。比如有时选择不发布,有时寻找新的节点再发布,有时低调处理后发布,有时则改变思路重新创作等等。

Q:能否举个例子?

A:我们做的“沸腾之夏”项目收集了近70年中大约700座城市夏季的气象历史数据,形成了一个能个性化查看自己城市气候档案的交互项目。这个项目是比较传统意义上数据新闻的核心使用场景,通过详细数据,能让大家在自己最关心的城市感受到气候变化产生的广泛影响。它比较特别的地方在于,开头选择不同城市后,会形成非常个性化的文案。后台设置维度也很丰富,比如夏季不热的城市和以热著称的城市,显示的文案会不一样。

从一定程度来讲,这个作品完成了探索型和解释型的融合。一般数据新闻内容要么是解释性的,比如图文,每个人看到的内容和传达的信息恒定;要么是探索性的,比如疫情数据,可筛选时间段、城市等,偏工具类型。而上述项目中每个人看到的叙事内容更定制化,内容呈现比工具型更有叙事感,算是传统意义上数据新闻比较好的体现。

澎湃美术课作品《沸腾之夏 你的城市还好吗》

Q:在“澎湃美数课”与“对齐Lab”两个账号的创作中,团队如何理解AI与数据新闻的关系?AI在哪些操作环节中发挥了实际作用?

A:一方面,AI从长期来讲是核心的变革性力量;另一方面,数据新闻作为一种报道形式,与传统报道有很大差异性,注重上手精神,即亲自体验新事物、新形式,注重将新技术和新闻内容表达结合。数据新闻曾经侧重于调查新闻(investigative Journalism),即通过数据挖掘发现重要线索;它的源头之一计算机辅助报道(Computer-Assisted Reporting),则是强调和技术使用结合,因此,数据新闻团队也有开源精神,强调写代码等。

从数据新闻的渊源看,它本身就注重新技术与新闻内容表达结合,AI作为重要变革力量,数据新闻团队关注和使用AI是自然过程。在操作层面,以我们的项目为例,AI能在短时间内完成人工可能花费很长时间且效果不一定完善的工作,在数据处理、分析等环节提高效率。

同时,AI也是未来变革世界的重要力量,数据新闻团队注重新技术和新闻的结合,数据新闻本身的渊源也决定了它对新技术的开放态度。所以我们在讨论使用AI时,并不局限于数据新闻领域,而是让AI可以在更多的场景发挥作用。

“读60万字哪吒原著画出封神宇宙,DeepSeek还能这样用?”项目截图

Q:目前AI市场已涌现出非常多类型的产品,您如何看待这些产品目前的能力?团队是否已形成一定的使用习惯?

A:我觉得它们都已经够好用了。对它们的评价也要取决于对标对象。要是拿它跟顶级作家名篇、顶级绘画水平相比,那AI暂时还没有可比性,毕竟绝大多数人也没法达到那种高度。但要是对标刚有一定经验或初入职场的人,在不同项目维度上,目前AI有时真能有一定优势。

2021年是我对AI能力认知的一个分水岭,当时有人用Midjourney作画得了一等奖,那时我就感觉AI的能力到了一个转折点,它能做到很多水平不错的事情。在懂得使用它的人手里,确实能完成更厉害的事。ChatGPT的诞生更是加深了我这种意识。

AI技术的进化速度非常快。比如,最早大家吐槽的问题,后来很短时间内就有新模型能解决了。目前AI的能力也许达到了70分的水平,而我们可以看到当下有多少人类生产的内容产品是在70分以下。由此就能明白为什么AI以后一定是变革性的力量,能替代一些生产力或者创造出新的岗位职责和生产模式。当然,它肯定会有一些负面问题,不过现在我们先只评估它的能力。

目前各家技术都还在迭代,不同的工具在能力维度都有差异,很难一概而论确定哪一个就是最优解,我们仍在广泛尝试。例如大模型Claude有很强的写代码能力,以及Manus、Cursor这些工具也比较擅长帮人写代码。DeepSeek的推理能力很好且回答深入且有情商。在视觉方面,平面设计会更多使用Midjourney,视频层面则更多使用可灵、即梦等国产AI工具。我们也发现国产的可灵生成出来的人物形象更像中国人,更适合我们的一些创作需求。在数据处理方面,AI还可以帮助做一些编码工作,海量的数据预处理也比较适合AI去做。当然它有时可能不准确,需要有比较好的品控,有时可能需要重做。

Q:近期“澎湃美数课”与“对齐Lab”有许多AI相关的作品很受欢迎。您可以和我们举例分享创作的过程吗?

A:很多创作角度是持续追踪后产生的。比如我们关注AI关注到一定程度,就会自然而然关注到算力问题。AI产品爆火随之会引发诸多舆论,例如OpenAI爆火带来的风险。我们在如此节点选择做AI背后的环境问题的科普,也更容易引起大家注意。

选题很难一概而论,但我们检验选题是否“好”有三大要素:

一是时间由头。比如算力问题,借助“环境日”这一特殊时间节点来开展,因为在这个节点大家有了解这类事情的需求。

二是切入方式。要明确想回答什么问题,通过什么信息回答,有时也涉及形式选择。例如选择条漫形式,可能更贴近人、有亲和力。切入角度就要考虑不同方面,不能只是简单提及环境日要做算力主题,或者金价上涨要做黄金价格的题目。因为这不是完整的报题,还需明确具体怎么做,就像写论文开题要考虑具体实施步骤一样。

三是资料来源。即使有好的切入角度、想回答很棒的问题,但如果没有掌握相关信息、资料,数据获取不到,时间不可控等,也无法完成选题。我们要求大家对这些问题有系统性思考后再进行讨论,不然就是浪费时间,影响内容产出。

Q:您如何从受众兴趣、阅读门槛的角度考量AI主题的数据新闻作品?

A:2024年3、4月之后,部分受众出现了信息回避反应。我们甚至设想,在标题中不提及AI,是否能让受众更愿意阅读相关内容。例如去年关于“萝卜快跑”的一篇报道效果很好,这篇报道没有着重强调AI,而是从更实际、落地的角度探讨问题。部分受众可能觉得AI暂时用不上,频繁提及会引发他们的回避情绪。

AI工具还在演变之中,作品太细致地呈现使用步骤会缺乏强针对性。所以我们会更多以“手记”的方式,讲思路层面的运用,包括过程中发现不同工具的优缺点等等,不会像之前的“美数课堂”一样,做很多操作层面的梳理。AI工具迭代速度非常快,可能两个月之后,现在的做法已经失去意义了,AI功能也已经有了新变化。

一款AI产品刚推出时,往往处于红利期,但久而久之受众看腻了,就会产生厌倦。我们所倡导的长期主义,在于持续寻找和探索合适的场景,去运用AI并关心整体工作流程如何优化。

AI仍在发展,目前我们尚未进入系统性流程变革的阶段。尽管在一些垂直领域已经出现了封装成熟的产品,但这也对我们自身工作也提出了反向要求:工作本身要具备足够的模块化

Q:数据新闻业对AI的关注是否只是阶段性追逐热点?

A:并不是。AI的传播红利期不长且有规律性,这三年都是春节前后,因资本市场炒概念股以及有重磅产品发布而有热度。从长远来讲,AI肯定会有很多创新,真正有创新的产品带来的传播热度还会有。团队更希望长期主义去做,有流量红利时多用AI,没有流量红利时也会坚持做适合用AI的项目。

Q:AI对数据新闻创作已有诸多帮助,那么创作的全流程是否都已经能完全交付给AI来完成?AI是否已经能取代记者?

A:我觉得还没到时候。现在AI辅助过程需要人工参与的部分较多,虽能在一些环节节省时间,但非常需要人力指导、核查和引导。当有一天Manus、Deepseek不再是热点时,我们去看它生成的内容,不一定会非常有吸引力。

大家一开始会因使用AI工具而感到新奇,但时间长了会更关注用AI做出的东西本身好不好。同时,我们团队的性质不是产研团队,澎湃的“派生万物”工具的任务是将AI相对成熟、能达标准线以上的功能模块化、工具化,而本团队任务更多是做实验性质、与内容结合的非标准化产品,不过对于能提高效率的事,会鼓励大家更多尝试,比如用AI看文件等。

Q:AI技术能大量取代记者的工作时,您是否对于新闻业有所担忧?

A:我觉得每一次技术变革肯定都会有利益获得者和受损者。AI一方面会取代一些岗位,另一方面也会创造一些新的岗位,前提是它能促进生产力发展。因此,技术变革更多带来的是一种变局。

在这个过程中,关键是要确定自己是面向未来的。从这个角度来讲,我们团队的人是充分自信的。我觉得对我们思维的震撼,可能比很多人来得更早,至少在ChatGPT出现以后,我们就被狠狠震撼到了。我记得当时我们团队有个男生,甚至都焦虑得睡不着觉,他觉得未来一下子就扑面而来了。但当你思考过后就会发现,AI不是要把所有人都淘汰,它只是会产生分工上的差异。

如果被分工到类似流水线或者更基础、单一的岗位,那可能就会成为利益受损的一方。但要是能被AI赋能,去完成更多的事情,那性质就不一样了。我们能明显感觉到,AI能够缩短从头脑中的想法到手部实践之间的距离。这几天我们密集使用Manus,这种感受更强了。想法和审美品位变得非常重要。

比如,你到底要让AI做什么,以及怎样和它合作,这是极为关键的。很多技能化的工作,AI都能做到70%的程度,甚至更高。所以这就使我们在工作中需要体现的能力发生了变化,而这个变化过程中,肯定会有新的机会出现。

Q:对于记者而言,如何培养自己的核心竞争力以应对新技术的冲击?

A:人的想法以及想用AI做什么事很关键。比如,我们用DeepSeek做上述的相关内容,在这之前的几个月,我们一直在琢磨用AI做“向量化”的事情。虽然起初并非打算用DeepSeek,但本质是让传统纯粹文本化、缺乏向量化的内容“活”起来。没有向量化就失去了很多将信息串联、组织起来进行观察的可能性。脑海中有相关想法后,我们结合DeepSeek以及“封神”这两个热点,最终决定开展这个项目。

“读60万字哪吒原著画出封神宇宙,DeepSeek还能这样用?”作品截图

初期使用AI时,适合做一些容错率相对高的事。如果用它做实证报道,对准确性要求极高,而做一些相对软性的题目,AI的发挥空间会更大,更适合进行内容方面的尝试。所以,想法很重要。这里的想法看似很虚,实则基于创作者的个人积累、综合素质,以及对读者和用户品味、关注方式的洞察。

另外,我一直不太喜欢只从数据新闻的角度思考AI。我想,未来AIGC的内容会成为主流,就如同现在市面上绝大多数蔬菜是大棚蔬菜,因为其效率更高、性价比更高。在这种环境下,“有机蔬菜”(即有人味的内容)就会变得很昂贵。以后大家看到的绝大多数内容都是AI生成的,可能会缺乏兴趣,此时如果看到有人味的内容,或许就很愿意为这个品牌、这个内容买单。

通过运营及其他能力的辅助,是否有可能让深度内容的价值显现出来?正如现在大家觉得有机蔬菜有原本的味道,愿意为之付出更多成本一样。所以对于内容生产者而言,主流或许是AI的天下,对平台机制来说,各种逻辑也会受到影响,但始终有机会存在于能提供优质内容的人手中。

Q:新闻领域目前对于AI使用的规范如何?您如何处理在AI运用中的质量把控?

A:我在用AI创作时有一些核查手段。AI可以完成数据集的编码,比如社交媒体上爬下来的数据需要通过抽查检验的方式看它打的标合不合适。此外,让AI做一个项目时,它的策划思路可能不太适合当下考虑,这时就要补充提示词,引导它修改方案,完善所做的事情。这分别属于准确性维度和思路维度的把控。

对于AI的使用规范,我们现在的原则是主动披露。比如,在视频里加上角标,在稿件里加上后记。让大家知道是怎么使用AI的,有哪些心得。今年3月刚出的《人工智能生成合成内容标识办法》,也是关于规范人工智能生成合成内容标识的条例。

除了主动披露,现阶段媒体的一个原始身份是媒体老师要通过报道的方式,去观察AI现象。所以我们栏目除了上手使用AI之外,也做一些对于AI关键现象的观察。例如“3·15”晚会的时候,我们关注到AI相关行业产生消费者权益受损的问题。所以我们不仅是使用者,也是瞭望者。

国内新闻业是拥抱新技术的,大众也乐见一些新的应用。只要你用的好,大众不太会产生比较原教旨的反对的声音但海外有些市场,用户的阻力会大一些,认为内容生产不应该借助AI帮助。

Q:欧美数据新闻发展较早,我们后来居上,相比之下,国内外数据新闻的发展方向及挑战的差异是什么?

A:各自都有各自的挑战。比如,《纽约时报》要PK的对象,不只是《华盛顿邮报》,还有是YouTube或者TikTok上的大量内容。我们PK的也不只是别的媒体,甚至可能还有短剧。所有的内容产品都被放在一个池子里,要竞争的是注意力。例如在抖音这个同样的平台里,又有短剧,又有新闻短视频,之间是在横向竞争的。

所以国内外的媒体行业,都处于语态切换、传播链条改变的状态中,处在变化梳理的阶段。各自都有各自的缘由和课题。

A:数据收集很难一言以蔽之,没有万金油式的来源。有两个方式可以帮助考虑找数据的事情:

一是去看一些好的作品,分析其数据来源。对这些作品进行解构,思考为什么自己也想做的题,别人能做出来,他们是怎么做的,用了什么数据,数据来源标注了什么,甚至可以对原数据进行回溯,这是一种学习方法。

二是对数据的认知要更加宽泛。很多人对数据的认知相对狭窄,认为只有统计数据、别人给的数据、行业研报的数据才是数据,但其实数据是我们处理接收到的信息的一种方式。比如,我们做过的关于上海相亲角的选题,数据来源是相亲广告。这些广告形式不同(有的是打印的),但都包含“我是什么样的人(年龄、性别、房产情况、户口情况等)”以及“我希望你是什么样的人(年龄、条件、学历等)”两部分信息。通过对这些广告进行梳理,整理条件,形成了一个数据库,从中能体现出相亲市场中大家认为的条件匹配、门当户对的概念以及背后的社会观念。

比较推荐一本书叫《Dear Data》,书中两个设计师一个在伦敦,一个在纽约,互相每周寄一个明信片,约定一周做一个共同主题(比如这周听到的“谢谢”),各自用自己收集数据的方式收集,再用想要的可视化形式呈现。他们侧重的点不同,比如有人侧重在什么情境下说“谢谢”(有人帮助、给予情绪价值等情境),有人侧重对什么人说“谢谢”,它有不一样的这个穿透方式。作者当时做这个项目就是想要关注一些不被人当成数据的数据。

《Dear Data》插图

因为对数据的认知,有时会影响找数据的难易程度。我觉得我们生活中万物都是数据。

Q:“澎湃美数课”团队内部有哪些提升数据敏感度的学习或训练方法?有哪些经典的学习案例?

A:我们团队最早较多看外媒的案例来学习,因为他们发展得更早,经验更丰富。后来,我们越来越强调要从更多样的渠道吸收知识。比如,可以从展览获取灵感,也可以从畅销书当中学习。对于数据的理解,有时即便找到数据,也可能不清楚数据的含义以及来源。还有一些相关书籍会讲述使用数据的逻辑方式,从定量研究或其他社科角度去思考问题。现在比较强调要从更高维度的来源进行积累。有时也会让团队成员,比如设计师,去看美院的毕业展,观察在没有框架限制的情况下,创作者是如何切入一个题材的。虽然看的这些东西不都直接与数据新闻相关,但这是提升整体水平的一种积累方式。

Q:根据您的观察,当前高校数据新闻课程与媒体行业实践之间的衔接情况如何?存在哪些亟待解决的问题?

A:高校在这方面比之前做得更好。现在很多学校都有这样的课程。但是具体比较难以一概而论。有一些高校,就已经做得挺好,学生在学习一个学期之后,就能完成一个比较成型的作品。不同的作品完成度也不一样。

数据新闻这个领域是很看作品的。我们招聘时,也不看专业,就是看作品,并且能讲清楚完成作品的过程。这些内容涉及的环节比较多,所以在实习的时候很难手把手地教,也需要在课程里有一定的积累。

Q:在当今技术浪潮中,高校学生应如何不断精进自身能力?您能否从行业的角度给出一些建议?

A:首先,尽可能多试。对新技术感兴趣的同学,不要畏惧,应多去尝试各类工具。我有时接触到的一些学生会表现出对AI介入的批判性看法,或是觉得AI能力不够。如果希望未来的发展方向和AI应用结合得比较紧密,那么在学校里就可以用起来,在一些作业里主动尝试和AI进行结合。其实许多前沿的AI艺术家都很年轻,他们有的在学生时代就深入开展技术应用。

其次,试错是创新的必经之路。毕竟先使用新技术,才能率先享受其带来的红利。我们应秉持这样的心态。当下人们有时会忧虑,自己的付出在未来可能变得毫无意义。但实际上,若明确了自身兴趣,就难免要有所付出。不管是短期还是长期,由于技术更迭,所学内容必然会发生变化。但全程参与和尝试所积累的经验,能助力我应对未来的新问题。

另外,要抓住更隽永、持久的东西,比如读一些你关注的领域的真正好的书,例如社会学、传播学等领域的经典著作。这些作品蕴含的理念能够穿越时代。如果自我定位并非单纯的技术应用者,而是偏向于构建框架的角色,那书底子就要厚。例如,向AI提出有创意的问题,而创意正源于积累和阅读。

学校相对是一个能够让人不浮躁地读书的环境。尽管社会压力较大,但专注于这些看似“无用”之事,其实十分必要。有些事出了校园再去做,可能就变得困难重重。

采访|王天越 姚欣言

作者|王天越 姚欣言 华苒君

编辑|林歆瑶 胡颉颃

值班编辑|毕咏璇

运营总监|叶沛琪