深读｜人机社会的三层提取系统：物质、劳动与数据|人机社会|克劳福德|大模型|算法

来源：市场资讯

当我们谈论“人工智能”时，总以为它是代码、算法、云端的魔法。但凯特·克劳福德在《技术之外：社会联结中的人工智能》中给出了一个令人警醒的答案：人工智能不是凭空产生的智能，而是由地球深处的矿物、全球隐形的劳动者、以及我们日常生活中的数据，三层叠加构造而成的提取系统。没有锂矿就没有芯片，没有劳工就没有数据标记，没有数据就没有所谓的“智能”。

物质基础设施

物质层的核心逻辑是：代价转移。锂矿所在地的社区承担生态破坏，全球气候承担碳排放，而收益却集中在硅谷的少数公司手中。为了清晰地呈现物质层的运作逻辑，我们可以将其拆解为三个相互关联的环节：材料提取（矿物从哪里来）、物流运输（矿物如何变成设备）、运行消耗（设备如何维持运转）。

材料提取

每一部智能手机的电池含有约8克锂，每一辆特斯拉Model S的电池组需要约7千克锂。数据中心的备用电源系统同样依赖锂离子电池。可以说，从我们手中的设备到支撑云计算的服务器群，锂是贯穿始终的内核。

然而，锂的开采过程对环境的破坏极其严重。克劳福德亲自探访了内华达州的银峰锂矿——一个位于沙漠深处的未建制社区。小镇坐落在一个巨大的地下锂湖上，地表下价值非凡的含锂卤水被抽空，留下空旷、流光溢彩的绿色池塘独自蒸发着。为了提取锂，矿区建造了该州最大的氰化物工厂。随着采矿活动的进行，氰化物开始污染地面，金银矿层衰退干涸。

图源：笔者截图

物流网络

材料提取之后，需要将它们运往全球各地的制造工厂，再将成品运送到数据中心和消费者手中。这一过程依赖全球航运网络，尤其是集装箱船。此外，AI系统的全球数据流通还依赖海底电缆——它们同样是开采、冲突和环境破坏的物质产物。

集装箱船是现代全球供应链的支柱，但它们也是巨大的污染源。书中提供了一组触目惊心的数据：船舶的年碳排放占全球总量的3.1%，超过整个德国；为压缩成本而大量使用劣质燃料，导致硫等有毒物质严重排放；单艘船的污染量相当于5000万辆汽车，每年约6万人的死亡可间接归因于货船污染。海底电缆虽然看起来是无形的通信网络，但它实际上需要使用橡胶、铜等材料进行包裹和保护，并通过复杂的工程铺设在海底。铺设过程中，电缆会扰动海床沉积物，破坏底栖生物栖息地；电缆的制造本身也依赖于矿物开采和工业生产。

这些污染主要影响港口城市和沿海社区，而全球南方国家往往是重灾区。

运行消耗

原材料被制成设备、运抵目的地之后，AI系统的运行需要持续消耗大量能源和水资源。

美国国家安全局位于犹他州布拉夫代尔的数据中心是美国最大的数据中心之一。据估计，该中心每天消耗170万加仑水用于冷却服务器。当地社区与政府就水资源分配展开了激烈争夺，而国家安全局最初拒绝披露用水数据，甚至声称用水量属于“国家机密”。

艾玛·斯特贝尔团队在2019年发表的研究中提到：仅运行一个NLP模型就产生了30万千克的二氧化碳排放量，相当于5辆汽油动力汽车的整个使用寿命（包括其制造）的排放量，或一架航班从纽约到北京往返125次的排放量。

而今天的大语言模型规模远超当年的模型，其碳排放更是呈指数级增长。然而，科技公司将这类数据作为商业机密，外界难以获取准确的能耗信息。

图源：Napkin生成

“云”的神话

你有没有想过，为什么科技公司总爱用“云”来形容他们的服务？

“云”这个字，听起来轻盈、自然、环保，好像数据真的飘在天空中一样。服务器藏在不起眼的数据中心里，它们的污染不像燃煤电站的烟囱那么显眼。科技公司也乐于宣传自己的环保政策、可持续计划。但克劳福德一针见血地指出：这不过是没有碳排放的可持续技术产业的一场幻想。

实质上，数据中心是地球上最耗能的建筑之一，服务器是堆满矿物和塑料的物理设备。“云”不是没有重量，而是重量被转移到了看不见的地方。环境代价的承担者，恰恰是那些最无力抵抗、最没有话语权的群体。

图源：笔者自制

劳动基础设施

劳动层的核心逻辑是：隐形化。这些劳动者从不被看见——不被消费者看见，不被投资者看见，甚至不被AI系统的用户看见。

为了清晰地呈现劳动层的压迫结构，我们可以将其分为四个递进的层次：谁在定义劳动标准？谁在承受体力与数字的双重剥削？谁在掌控时间与速率？被压迫者如何进行反抗？

标准劳工的想象

硅谷的劳动精英设计的生产力工具以“残酷无情、赢者通吃”为前提，并将自己推崇的工作狂文化作为衡量其他员工的基准。

“标准劳工”：男性化的、小范围的，并且依赖其他人无偿的或低薪的辛勤工作。

两种剥削：体力劳动与数字劳动

体力劳动方面，作者以亚马逊仓库的工人为例。这些被称为“伙伴”的工人，待遇却与机器无异：一进工厂就要扫描登记，休息间、出口处处是考勤钟。工人们承受着高压、伤痛和疾病——如果他们的速率在一天内下降三次，他们将立即被解聘。

数字劳动方面，作者揭示了一个常被忽视的事实：人工智能需要数量庞大的低薪工人来帮助开发、维护和测试其系统。

土耳其机器人

亚马逊将其众包平台命名为“土耳其机器人”——源自18世纪一个假装自动下棋的骗局——直指“人工的人工智能”。原本应该由自动化完成的工作，被悄悄转移给了后台的真人。于是，AI看起来越来越“智能”，而真实的劳动成本却从账面上消失了。

这套策略做到了三件事：

第一，它把人类劳动重新藏了起来。

第二，它把劳动和价值彻底割裂了。

第三，它让劳动者变得随时可被替换。

控制机制：时间私有化与设置速率

亚马逊的“速率”制度是时间私有化的典型应用。工人们因担心效率下降而不敢上厕所。对劳资双方来说，“速率”是核心问题，但也是最难改变的问题。

谷歌的TrueTime协议是一种专有的时间同步系统，能够在中央主时钟的控制下创建可移动的时间尺度。这意味着全球数百万台服务器、无数劳动者的工作节奏，都可以被一个私有化的时间系统统一调度。时间不再属于劳动者，而属于资本。

工人并非没有抵抗。法国无政府主义者用“怠工”一词表示有意放慢工作节奏，以收回对时间的控制。

图源：Napkin生成

工人抵抗：从零星抗争到跨部门团结

明尼苏达州伊根配送中心的六十名亚马逊工人（其中大多是索马里裔妇女）在雨中举着标语罢工，要求增加夜班工资、限制箱子重量。此前，萨克拉门托的员工因一名同事仅在家人去世后休了一小时丧假就被解雇而发起抗议。这些事件表明，工人们正在以各种形式争夺被算法剥夺的尊严。

然而，过去几十年里，商业游说团体和亲商的政府削弱了劳工权利、限制了组织渠道，使得跨部门团结更加困难。但AI驱动的提取和监控系统反而成为劳工组织者联合起来的新焦点。“我们都是技术工人”这句出现在程序员、门卫、自助食堂工人和工程师抗议活动中的口号。绝大多数工作者都在使用笔记本电脑、移动设备、社交媒体和协作平台，都受制于工作场所AI系统的标准化、跟踪和评估。

这种共同的处境为一种广泛而大胆的新型团结奠定了基础。抵抗不再局限于某个仓库或某个平台，而是指向整个提取主义的技术逻辑。

图源：网络

数据基础设施

数据层的核心逻辑是：殖民化。克劳福德给出了一个令人不安的答案：AI的“智能”建立在对人类日常生活的系统性提取之上——这种提取未经同意、不讲背景、不计代价。

数据来源：国家数据库与互联网抓取

NIST面部数据库照片

在《技术之外》第三章开篇，克劳福德带读者走进了一个令人不寒而栗的数据集：美国国家标准与技术研究所（NIST）的“特殊数据库32号”。一名年轻女子的面部照片依次出现：她眼神向上凝视，拒绝承认镜头的存在；下一张，她头发凌乱、表情沮丧；最后一张照片中，她看起来老了许多，一只眼睛受伤，脖子上的皱纹十分明显。这些照片是她一生中多次被捕时所拍摄的面部照片。这个数据集包含了数千名死者生前多次被捕时的照片。

照片中的人及其家人对这些用途毫不知情，甚至不知道自己是AI测试平台的一部分。NIST数据库预示了一种彻底渗透科技行业的逻辑：一切都是数据，且随时可被使用。

更令人警惕的是，NIST数据库的建立初衷并非出于恶意，而是为了“协助FBI及合作伙伴组织优化面部识别的工具、技术和流程”。它原本用于刑事司法系统，却在被纳入测试基准的过程中完成了意义的转换：从执法工具转变为算法竞赛的技术基础。照片中描绘的个体，他们的故事、创伤、尊严，在数据集中完全消失了。

图网（Image Net）的建造

如果说NIST代表了政府数据库的攫取逻辑，那么图网则代表了互联网抓取的攫取逻辑。克劳福德指出，在人工智能研究领域，互联网被视为一种天然的、可获取的资源。

图网项目的目标是绘制“整个客体世界”。研究团队通过从互联网上提取数百万张图像（主要通过图像搜索引擎），构建了一个包含超过1400万张图像、分为两万多个类别的“大规模图像实体”。

然而，尽管成千上万的图像有着隐私性很高且不宜公开的内容，但团队的任何研究论文都没有优先考虑甚至没有提到有关获取个人数据的道德问题。

图网的伦理问题远不止于数据来源。其底层分类结构从词网（WordNet）导入，而词网本身继承了一系列有问题的分类假设。有研究指出，图网数据集包含的标签包括“黑鬼”“犯罪分子”“荡妇”等带有严重侮辱性的词汇。一个用于训练AI认识世界的基础数据集，本身却是建立在有问题的分类假设之上的——它将复杂的人类主体性压缩为机器可读的标签，同时将结构性的偏见固化进算法的认知框架中。

数据获取正当化：三套话语共谋

知情同意制度的弱化

进入21世纪后，知情同意原则遭遇了系统性侵蚀：由知情制度驱动的数据收集方式发生了转变，不再需要签署协议、声明或经过道德审查。

知情同意制度的终结，意味着从“人类主体”到“数据主体”的转变——人不再是被研究的对象，而是被提取的资源。

“数据是新的石油”

诸如“数据挖掘”与“数据是新的石油资源”之类的术语和短语作为一种修辞手法的一部分，将数据的概念从个人的、私密的或受制于所有权和控制权的事物转变成更为惰性和非人类化的事物。

这种修辞的效力在于：它将数据抓取包装为可开采自然资源，从而绕过了关于同意、隐私、所有权的争论。石油开采需要契约劳工、地缘冲突、资源枯竭、以及超出人类时间尺度的环境后果。但它只保留了“提取是正当的”这一核心命题。

历史上，殖民者将非洲、美洲、澳洲等地的原住民土地描述为“未开化的蛮荒之地”。如今，将数据隐喻为等待被发掘的“天然物质”，正是这一殖民修辞技巧的当代延续。

资本积累的内在要求

如果说前两套话语是从外部为数据提取提供合法性，那么第三套话语则揭示了数据提取的内生动力。克劳福德指出：数据也开始被视为资本。算法把人类活动通过数字痕迹表现出来，然后在评分指标中进行统计和排序，这其实是一种提取价值的方式。

海量数据提取是不断积累前行的前沿事物，是资本主义的未来，也是使AI发挥作用的基础模型需要数据来训练，数据越多模型越“智能”，模型越“智能”越能提取更多价值，更多价值催生更大规模的模型——这是一个不断强化的循环。因此，整个行业、机构和个人都不希望数据获取的源头受到质疑或失去平衡。质疑数据提取，就是质疑AI产业的根基。

从“人类主体”到“数据主体”

克劳福德在数据层揭示的最深刻的后果，是人的主体地位的转变。她认为：从“人类主体”到“数据主体”的转变，也就是向缺少主观性、背景信息或明确权利的数据点集合的转变。这一转变的实质是权利的丧失。在知情同意制度下，人类主体拥有知情权、选择权、退出权；在数据主体的框架下，这些权利被系统性地悬置。面部照片被用来训练算法，你无权知晓、无权拒绝、无权删除。情感数据被分析，你甚至不知道数据被谁使用。社交内容被抓取，数据主体是一个被动的、无权的、可被无限提取的实体。

这正是数据殖民主义的核心机制：不是通过武力占领土地，而是通过数据提取攫取生命本身。被攫取的不是物理空间，而是人的存在痕迹、行为模式、情感表达。数据殖民主义与历史殖民主义共享同一个深层逻辑：攫取、不平等、收益集中化、以及一套为之辩护的意识形态。

图源：Napkin生成

克劳福德用“三层提取系统”拆穿了人工智能的光鲜外表：在物质层，生态代价被转移给矿区与气候系统；在劳动层，人的伤痛被效率叙事所遮蔽；在数据层，殖民式化瘀将人转化为可被提取的数据主体。三层彼此嵌套、相互强化，形成一种不断加速的提取机制。理解这一结构，并非为了拒斥技术本身，而是为了在享受其便利的同时，持续追问：谁代价由谁承担？利益又流向何处？而这些问题的答案，往往被隐藏在技术光鲜表面之下的生产与运作过程之中。

参考文献

[1] 克劳福德. 技术之外 : 社会联结中的人工智能 : power, politics, and the planetary costs of artificial intelligence[M]. 北京 : 中国原子能出版社 : 中国科学技术出版社, 2024

[2] Tsipras D, Santurkar S, Engstrom L, et al. From imagenet to image classification: Contextualizing progress on benchmarks[C]//International Conference on Machine Learning. PMLR, 2020: 9625-9635.

[3] Denton E, Hanna A, Amironesei R, et al. On the genealogy of machine learning datasets: A critical history of ImageNet[J]. Big Data & Society, 2021, 8(2): 20539517211035955.