刘太石

把平台当作数字田野

作者 |刘太石

作者单位 |布里斯托大学社会数字未来研究中心

华中科技大学数字社会研究中心

原文 |

拙作《数字时代的中国青年文化变迁:趣味模式、社会区隔与平台化》有幸发表于《社会学研究》2025年第3期。回顾本文从初版到定稿逾三年的历程,我要衷心感谢匿名评审专家和《社会学研究》编辑部老师对本文提供的所有帮助。作为青年作者,我在本文的往复修改中,获益良多。特别感谢在本科和硕士求学期间,郑丹丹与刘河庆两位导师对我的悉心指导。在华科的七年时光里,两位老师引领着我的学术与生活。其中深情,难于言表。

一、问题缘起:平台为什么变了?

本研究源起于一个朴素的提问:平台为什么变了?作为B平台的老用户,我从2013年就加入了社群。在2016年左右,我逐渐感受到B平台社群氛围发生了很大变化。起初,我认为身边都是“网络同好”,大家有着类似的青年文化趣味与生活境况。但随着时间推移,我发现自己的文化体验在社群中开始缺乏共鸣,曾经喜爱的内容在不断减少,很大程度上,我觉得自己成了社区的“边缘人”。我起初怀疑是自己跟不上潮流,直到我断断续续看到一批老用户的评论,他们发出类似的感慨:“XX已经不是原来的XX了”。所以到底发生了什么?平台变了这一感受,不仅体现在个人的文化实践中,也应放回到结构构性的背景与动态中。为此,我试图将“B平台”所发生的“变迁”故事作为我的研究母题。

那么如何研究平台变迁呢?当时,我阅读了大量青年文化与网络社区的访谈与民族志研究,但总觉得“不解渴”。后来,给我很大启发的是黄荣贵老师在2017年发表于《社会》的文章《网络场域、文化认同与劳工关注社群:基于话题模型与社群侦测的大数据分析》。这篇文章在国内学界较早引入了主题模型方法,并基于社交媒体数据进行了比较扎实的话语与社群分析。我由是想把这篇文章的思路进一步拓展到对“B平台”上社群变迁的研究。在研究策略的启示外,黄荣贵老师对模型解释性的关注也给了我很深的印象。事实上,方法上的计算驱动不代表理论与解释上的懒惰,相反,算法异质性与底层事实(Ground Truth)间的张力,恰恰要求社会学想象力的高度介入。

基于上述思考,我最终将澄清“B平台”中发生的青年文化社群变迁作为自己的学术论文主题。当时,计算方法在国内方兴未艾,尚无特别系统的网上教程或线下课程。我一方面自学了两个月机器学习课程,一方面着手复现已有研究,结合零零碎碎的网络博客以及软件文档自己学习(一位计算机专业的好友帮了不少忙)。最为艰难的还是数据获取,以一己之力获取足够进行社群层面推断的数据并非易事。从抽样设计、代码编写、程序Debug再到数据清洗,生成变量以及可视化,在边学边做几乎燃竭的半年里,我真是体会什么叫做“关关难过,关关过”。所幸,这项研究的最初稿在2020年顺利完成,虽然在当时,这仅是个非常粗糙的对平台中社群扩张进行案例研究的学士论文。在那篇论文中,我尚无平台研究的意识,也无方法运用的娴熟,在理论阅读上也并不完整。后来伴随着硕士升学,郑丹丹教授作为我的导师继续引导了本文的修改,我也作为刘河庆老师的研究助理,在计算方法上钻研逾深。在近半年的进一步强化与调整后,2021年3月,本文的初稿完成,并在导师建议下投递到《社会学研究》。文章非常幸运地进入了外审环节,两位外审专家以极大的包容与耐心对本文的问题意识、研究方向及量化细节给出了深刻而富有建设性的意见,本文也至此开始了漫长的修改历程。

二、计算扎根:把平台作为数字时代的田野

我花了不少的时间来消化外审意见,并和我的两位导师就进一步修改的症结之处“碰”了很多次。在近一两个月的思考后,我最终将初稿中的深层问题确定为了以下几个。

一、虽然始终提醒自己关注计算研究的解释取向,但我仍陷入了“方法陷阱”。一部分源于方法掌握的稚嫩,一部分源于对模型的过度信赖,在数据分析中,我仅是把方法应用到了材料,任由模型“自由发挥”,没什么“问题意识”,也缺乏对数据背后“真实”情况探索的方法论自觉。对此,当时审稿人批评我在文章结尾“陷入无话可说的境地”,我思忖良久。二、是样本的选择问题,另一位审稿人指出原始的案例数据在推断平台整体状况上的不可靠。我考虑再三,最终还是决定重新搜集数据。为此,我重新制定了抽样策略,并花费了近两个月重新搜集数据。由此,本文的实证相当于完全重新开始。三、另一个振聋发聩的意见来自于审稿人对平台数据之来源的关键提醒。在本研究的早期阶段,我天真地将平台中的数字青年文化实践,视为“给定之物”,进而是“自然”演化的结果。然而,审稿人对平台背后复杂发展逻辑及动力的提醒,让我对数字痕迹与数字平台的本质产生了更深层的思考,进而将其视作复杂社会-技术过程的产物。

在真正消化了上述观点后,2022-2023年间陈云松、罗家德、陈茁等学者对“计算扎根”策略的倡导也给了我很大的启发与影响。我模糊中有一种新的方法论意识:“把平台作为田野”。

这一立场与我后来接触的批判性数据研究具有精神上的共鸣,即,研究者总应对平台、算法与数据背后的本体论状况保持反思性:后者是高度动态复杂的社会、技术以及政治经济过程的产物。面对这一复杂性,计算社会学家的目标是创造性地使用他的方法工具箱(质性、量化或计算的),以触及表象背后的深层“真实”。

由此,对作为复杂社会过程之侧显的数据,适用针对性的方法组合,以追溯到数据背后的真实发生的结构、事件与过程,就是我理解中的“计算扎根”。在我的个人体验中,“计算扎根”所面对的困难,并不比现实田野中的停顿、困境与张力要少。尤其考虑到“计算扎根”的“重理论”策略,我逐渐把平台看作数字时代的田野,唯一的差异是,研究者所面对的现象特性与问题领域,所需要的理论自觉及方法储备有所不同。

循着上述思考,我至少三次对重新搜集的数据进行建模尝试。在大量“作废”的计算实验中,模型呈现的结果距离让数据“说出自己的故事”仍有很大距离。断断续续的尝试直到我应用了HDP模型后才收尾。在该模型的帮助下,我第一次真正对“B平台”中文化实践的异质性进行了分析。在查阅主题建模结果时,我看到青年文化空间被分解为了超过200个高度可解释化的趣味(taste)维度。我知道,我终于接近了数据背后的“真实”。

不过,对非结构数据进行相对漂亮的“向量化”并非研究的终结,而是开始。如要呈现B平台的完整变迁,其核心在于揭示在平台化进程中青年文化的结构变迁,这依赖于对各类概览或可视化技术的使用。就这一阶段的研究,2018年的《网络左翼的三重面相:基于个案观察和大数据的探索性研究》与2023年的《计算扎根:定量研究的理论生产方法》这两篇文章为我提供了不少方法论参照,前者在计算与理论的双重支持下进行了扎实而系统的类型学研究;后者则展示了预测模型的社会解释性应用。最后,与另一位国内量化研究前辈的沟通中,我进一步意识到了“过程-事件”思维在分析平台变迁中的潜力。这种思考引导我将“平台动力学”作为重要的考察维度,并必须结合平台历史中的重要事件进行解释。上述考虑,最终汇聚为了本文实证部分的具体安排。

总体而言,比起最初对青年文化社群的兴趣,在文章修改的后期,我认为呈现“平台化”进程中的结构与动态成了更为重要的研究目标,希望我初步做到了。

最终,在又一次“关关难过,关关过”的历程后,本文在去年10月接近了目前版本的内容呈现,至此,我可以大致松口气,算是给手中的材料有了个交代。在最后的修改阶段,本文在编辑部几位老师的建议下,对实证材料进一步凝练,并在对材料的理论化上进行了几轮迭代。从最初以“青年文化研究”为线索,到目前以Savage及其团队的“新兴文化资本”理论为中心,最终版本或更为清晰可读。

此时,回看整个修改过程,竟已逾三年,考虑到这个曲折过程中的学习、思考与交流,我感慨,终于给这个2019年的问题以一个2025年的交代。

三、余论:数字何为?

最后,我还想简要谈谈对平台化的一些思考,作为余论。这是个流变的数字时代。从上世纪90年代,克林顿政府塑造了数字技术的基础设施与国际事务框架后(例如,信息高速公路计划、数字千年版权法案等),数字化进程席卷世界,重塑了这个行星上绝大多数人的生活。毫无疑问,数字化是一个全球性的政治经济议程。

放眼世界,在数字技术的萌芽年代,人们期盼千禧年的去中心世界,互联网初创企业高呼用技术改变世界;但短短20年时间,以谷歌模式的诞生与增殖为标志,数字技术与资本主义机器的啮合形成了新的社会装置,我们称之为算法,称之为平台。与早期数字化的解域梦想相比,深度数字化指向全球化及后金融危机时代,新资本主义(或后资本主义)模态的成形:一个全球数字平面被政治经济因素创造、重塑并调动,形成了欧陆理论家如今忧心忡忡的“数字封建主义”。大型技术公司日益成为国家之外的超地缘力量。

在我的研究样例中,平台化同样折射着深度数字化的进程,但幸运的是,数字中国正寻找其自身的全新路径,并试图为平台社会寻求一种新的栖居方式。如果技术能为社会生活的福祉赋能,而不是成为控制、再现或透明化不平等的幕布,那么我们将创造历史,并迈向中国的“技术宇宙”。