3月31日,Mercor员工收到一封内部邮件。邮件里写着"近期安全事件影响我司及全球数千家组织",语气像在播报天气。但接下去的两周,这封邮件引发的连锁反应,让硅谷AI圈的数据供应链开始重新洗牌。
Meta是第一个掀桌的。
两名知情人士向WIRED确认,Meta已无限期暂停与数据承包商Mercor的全部合作。其他主要AI实验室也在重新评估与Mercor的合作关系。这场暂停不是例行检查——Mercor的承包商被告知,他们负责的Meta项目"正在重新评估范围",而实际状态是:无法登录工时系统,等于功能性失业。
Mercor是谁?这家初创公司养着庞大的人类承包商网络,专门为OpenAI、Anthropic等顶级AI实验室生成定制化的专有训练数据集。这些数据集是ChatGPT、Claude Code等产品的核心配方,保密程度堪比可口可乐的糖浆配方。AI实验室对此极度敏感,因为数据泄露可能让竞争对手——包括美国的同行和中国的追赶者——窥见模型训练的关键细节。
一次API工具的"投毒",掀翻整条船
攻击者"TeamPCP"近期入侵了AI API工具LiteLLM的两个版本。这个工具被大量AI公司用于统一管理不同模型的接口,受害者可能多达数千家。Mercor只是其中之一,但它的特殊性在于:它手里攥着多家顶级AI实验室的"家底"。
OpenAI向WIRED确认,尚未停止与Mercor的当前项目,但正在调查其专有训练数据可能如何暴露。发言人强调,此事"绝不涉及OpenAI用户数据"。Anthropic则未回应置评请求。
Mercor及其竞争对手——Surge、Handshake、Turing、Labelbox、Scale AI——在业内以极度神秘著称。它们为AI实验室提供的服务细节极少公开,合同条款往往附带严格的保密协议。这种神秘主义既是商业策略,也是安全刚需:训练数据的构成方式直接决定模型的能力边界,泄露等于送对手一份研发路线图。
数据供应链的"黑箱"困境
Mercor的商业模式建立在一种微妙的信任结构上。AI实验室需要海量高质量标注数据,但不愿自建庞大的人力团队;Mercor扮演"数据中间商",连接全球承包商与实验室的需求。这种分工让实验室保持"轻资产",却也制造了安全盲区——敏感数据流经第三方平台,控制链被拉长。
此次事件暴露的正是这个盲区的风险。LiteLLM作为基础设施工具,本应是中立的管道,却因版本被篡改成为攻击跳板。Mercor的承包商系统、项目分配逻辑、甚至部分训练数据样本,都可能通过这一入口暴露。
值得玩味的是反应速度的差异。Meta选择立即切割,OpenAI选择边查边用,Anthropic保持沉默。三种姿态对应三种风险偏好:Meta将数据安全置于合作连续性之上;OpenAI似乎在赌暴露范围可控;Anthropic的沉默则可能是评估尚未完成,也可能是公关策略的谨慎。
Chordus项目:一个被冻结的实验
Mercor内部Slack频道里,一个名为"Chordus"的Meta专项成为焦点。这个项目的目标颇具野心:教AI模型使用多个互联网来源验证其对用户查询的回复。简单说,就是让AI学会"交叉查证",减少幻觉。
Chordus的承包商们现在处于悬置状态。项目负责人在频道里只说了句"重新评估范围",但谁都知道,在Meta解除暂停令之前,这个实验不会推进。对于依赖Mercor项目收入的承包商而言,这意味着现金流断裂;对于Meta而言,这意味着一个多源验证能力的研发节点被推迟。
数据标注行业的生态系统由此显形。Mercor的竞争对手们——Surge以高端研究型标注著称,Scale AI是估值最高的行业巨头,Labelbox侧重企业级数据管理——都在观察这场危机的走向。如果Mercor的信任崩塌,订单可能向头部集中;如果行业整体被质疑,监管压力可能上升。
AI训练数据的"军备竞赛"逻辑
理解这次事件的严重性,需要回到AI模型训练的基本面。大语言模型的能力不仅取决于架构和算力,更取决于训练数据的质与量。而"质量"的定义本身就在快速演变——从早期的互联网爬取文本,到精心筛选的书籍和代码库,再到如今的高度定制化人工生成数据。
Mercor提供的正是最后一类。它的承包商可能被要求:模拟特定领域的专家对话、生成带有特定偏见模式的样本以便模型学习识别、或者像Chordus项目那样,创建多步骤验证的训练场景。这些数据的价值不在于体量,而在于与实验室研发目标的精准匹配。
泄露风险因此具有不对称性。竞争对手获取这些数据,不仅能逆向推测模型的训练策略,还可能针对性优化自己的数据 pipeline。在AI能力差距以月甚至以周计算的当下,这种情报价值难以估量。
中国AI公司的追赶态势加剧了这种焦虑。美国实验室普遍担忧,训练数据的泄露可能缩短技术领先窗口。Mercor事件因此带有地缘政治色彩——尽管目前没有证据表明攻击者与特定国家关联,但"数千家组织"的广泛受害面,本身就让溯源变得困难。
供应链安全的连锁反应
LiteLLM的入侵方式值得细究。作为一个开源的API统一层,它被众多AI公司用于简化多模型调用。攻击者篡改版本更新,相当于在公共水源投毒——使用者的系统看似正常运行,实则后门敞开。
这种供应链攻击模式在软件行业并不新鲜,但AI领域的特殊性在于:被窃取的可能不仅是代码或凭证,而是直接构成商业核心的训练数据。传统软件公司的"秘方"是算法,AI公司的"秘方" increasingly 是数据——以及数据与算法的耦合方式。
Mercor的应对显得仓促。3月31日的全员邮件将事件泛化为"全球数千家组织"的共同遭遇,这种 framing 既是对事实的描述,也是对责任的稀释。但承包商们的切身感受是具体的:工时系统关闭、项目状态不明、收入预期落空。
行业层面的反思正在酝酿。多家AI实验室的重新评估,可能导向更严格的供应商审计标准,或者更激进的数据本地化策略——将敏感标注工作收回内部团队,牺牲效率换取控制。无论哪种路径,成本都将上升,而最终可能传导至模型训练和推理的定价。
Meta的无限期暂停是一个信号,但信号的含义仍待解读。
它可能是暂时的姿态,待Mercor完成安全整改后恢复合作;也可能是永久性的切割,为竞争对手创造市场机会;甚至可能成为行业规范重塑的起点,推动数据标注领域的整合与标准化。
OpenAI的"边查边用"则展示了另一种计算:Chordus这类项目的价值足够高,高到值得承担一定风险;或者Mercor在某些细分领域的不可替代性,让完全暂停的成本过于沉重。这种差异化的应对,本身就在重塑供应商与实验室之间的权力平衡。
承包商网络的稳定性是另一个变量。Mercor依赖全球分布的自由职业者完成标注任务,他们的忠诚度与平台绑定,而非与终端客户绑定。如果项目暂停持续,这些人力资源可能流向竞争对手,带走的不只是劳动力,还有对特定项目需求的隐性知识。
在Mercor的Slack频道里,有人询问Chordus何时重启。项目负责人的回复停留在"重新评估"四个字。对于每天登录查看状态的承包商而言,这比明确的拒绝更令人焦虑——希望被悬置,计划被打乱,而解释始终模糊。
这种悬置状态或许正是整个AI数据供应链的隐喻:效率与安全之间的张力从未如此尖锐,而平衡点在哪里,还没有人知道答案。
热门跟贴