去年10月,Mercor 刚以100亿美元估值完成3.5亿美元C轮融资,三位22岁的创始人成为全球最年轻的白手起家亿万富翁。六个月后,这家AI数据公司的名字出现在了一起可能改变行业规则的供应链攻击事件中心。
Wired 披露,攻击者通过污染 LiteLLM 开源库,不仅窃取了个人数据,还可能带走了全球顶尖大语言模型的训练方法论。Meta 已无限期暂停与 Mercor 的合作,OpenAI 和 Anthropic 启动内部调查,超过4万人卷入集体诉讼。
被盯上的不是数据,是"怎么炼成的"
Mercor 的商业模式藏在AI产业链最隐秘的环节。它不生产模型,也不卖算力,而是招募工程师、律师、医生、银行家、记者组成的人类承包商网络,为AI实验室定制高质量训练数据——微调数据、强化学习反馈、领域专业知识标注。
这些正是大模型厂商极少公开讨论的"黑箱"。你看到的GPT-4或Claude的惊艳表现,底层有多少轮人类反馈强化学习(RLHF)、如何设计奖励函数、怎样筛选和加权训练样本,属于比模型权重更核心的商业机密。
攻击路径像一次精准的供应链狙击。Wiz、Snyk 和 Datadog Security Labs 的联合分析显示,名为 TeamPCP 的威胁组织先攻陷了 LiteLLM 的 CI/CD 流水线。这个Python库月下载量9700万次,估计存在于36%的云环境中,被数百万开发者用于连接应用与AI服务。
TeamPCP 在库中植入恶意代码,当 Mercor 的工程师像往常一样更新依赖时,后门随之进入其系统。攻击者潜伏期间收集的不仅是员工个人信息,更包括客户项目文档、数据标注指南、质量评估标准——也就是"如何复制一个GPT-4"的操作手册。
22岁亿万富翁的供应链赌局
Brendan Foody、Adarsh Hiremath 和 Surya Midha 的创业故事自带硅谷神话滤镜。三人是湾区 Bellarmine College Preparatory 高中演讲辩论队队友,2023年辍学创办 Mercor,两年内从0做到5亿美元年化收入。
这种增速甚至超过了同期的大多数AI基础设施公司。Mercor 的秘诀在于切中了模型厂商的集体焦虑:公开数据集已经卷到头,真正拉开差距的是私有、高质量、领域专精的训练数据。OpenAI 需要医生标注病历理解临床推理,Anthropic 需要律师评估宪法AI的安全性,Meta 需要多语言母语者优化 Llama 的方言表现——这些都无法靠爬取互联网解决。
但高度定制化意味着深度嵌入客户流程。Mercor 的承包商往往需要签署严格的保密协议,访问内部标注工具,甚至远程登录客户的基础设施。这种耦合在提升数据质量的同时,也将自身变成了供应链中的高价值目标。
攻击曝光后,Meta 的反应迅速且罕见。一位接近该公司的消息人士向 Wired 表示,暂停合作是"预防性措施",直到 Mercor 完成全面的安全审计。考虑到 Meta 正在全力推进 Llama 4 的训练,任何训练方法论泄露都可能让数十亿美元的研发投入面临被竞争对手逆向工程的风险。
开源生态的信任危机
LiteLLM 的污染事件撕开了AI开发工具链的一个长期隐患。这个库本身设计精巧:用统一接口封装了上百种大模型API,让开发者可以用同一套代码切换 OpenAI、Anthropic、Google 或本地模型。它的流行恰恰源于这种"基础设施"属性——你很少直接感知到它,但它无处不在。
TeamPCP 的攻击手法并不新奇,但目标选择极具针对性。CI/CD 流水线是现代软件开发的主动脉,一旦沦陷,恶意代码可以随正常版本发布流程进入无数下游系统。更棘手的是,开源库的维护者往往是个人开发者或小团队,安全投入与其实际影响力严重不匹配。
Datadog Security Labs 的研究人员指出,LiteLLM 的代码库在过去六个月经历了爆发式增长,功能迭代速度远超安全审查能力。这种"先跑起来再治理"的模式在创业公司是常态,但当你的用户包括 Mercor 这类处理顶级AI机密的企业时,风险敞口就变成了行业级问题。
OpenAI 和 Anthropic 的跟进调查表明,担忧正在蔓延。两家公司均未公开评论,但内部安全团队被曝正在梳理与 Mercor 相关的所有数据交换记录,评估是否存在训练机密外泄。对于依赖 RLHF 等专有技术建立护城河的大模型厂商,这比普通数据泄露严重得多——你可以重新训练模型,但无法收回已经泄露的方法论。
集体诉讼背后的身份悖论
超过4万人加入的集体诉讼,将事件推向了另一个维度。原告律师指控 Mercor 未能妥善保护承包商个人信息,包括真实姓名、专业背景、银行账户细节,以及——最具争议的部分——他们在标注工作中接触到的客户项目信息。
这触及了AI数据经济的结构性矛盾。Mercor 的承包商既是劳动者,也是训练数据的来源;他们签署保密协议保护客户机密,但自身权益保护却处于灰色地带。一位参与诉讼的前医学标注员向 Wired 透露,她从未被告知自己的标注样本会被用于哪些具体模型,更不知道这些工作文档的存储安全级别。
诉讼文件显示,攻击者获取的部分数据包括标注员的内部绩效评分、与客户AI系统的交互日志,以及——在某些项目中——他们用于评估模型输出的参考标准答案。这些信息组合起来,足以推断出特定大模型在特定任务上的能力边界和失败模式。
Mercor 在声明中表示正在"配合执法机构调查,并加强安全措施",但未回应关于训练方法论泄露的具体询问。公司官网仍在正常运营,继续招募"全球顶尖AI人才"加入其承包商网络。
热门跟贴