2026年2月25日,Anthropic首席执行官达里奥·阿莫迪在知名播客主持人尼基尔·卡马斯的节目上抛出了一颗重磅炸弹。
他直言,大量来自中国的人工智能模型在基准测试上存在刷分行为,其能力更多源于对美国大型实验室的"提炼",而非真正意义上的自主研发。
这或许是迄今为止,美国AI头部实验室现任CEO对中国同行最为公开、最为尖锐的一次指控。
阿莫迪的核心论据是一个颇为具体的例子。他表示,某些中国模型在公开软件工程基准测试中表现亮眼,但一旦换成未公开发布的私有测试集,分数便出现明显下滑,这一落差恰恰暴露了"针对题目刷分"与"真实解题能力"之间的本质区别。他总结道,"这些模型针对基准测试的优化,远大于针对实际应用的优化"。
值得一提的是,阿莫迪同时给出了自己的经济学判断:在人工智能这个行业里,质量的优先级远高于价格。他以雇佣员工打比方,认为能力的分布遵循幂律规律,最顶尖的人才与排名一万开外的人才之间存在不可忽视的差距,AI模型亦然。
这套逻辑当然不是随机说出来的。DeepSeek早些时候以极低的训练成本宣称达到了前沿性能,直接冲击了Anthropic和OpenAI赖以维系高价定价体系的核心叙事,阿莫迪此时的表态,显然有一定的防御性商业考量在里面。
Anthropic对华的一贯敌视强硬姿态
理解这次发言,有一个不可忽略的背景,那就是Anthropic长期以来对中国AI持有系统性的强硬立场。
早在2025年初,阿莫迪便公开撰文,将对华芯片出口管制称为"决定AI未来走向最重要的政策变量",并游说美国政府进一步收紧管制。他甚至在达沃斯公开批评英伟达向中国出售H200芯片的决定,称此举"简直疯了",引发业界广泛关注,也与英伟达CEO黄仁勋产生了罕见的公开分歧。
更早之前,Anthropic在2025年正式指控中国三家AI公司:DeepSeek、Moonshot AI和Minimax,称这三家机构通过约24000个虚假账号对Claude系统实施"提炼攻击",涉嫌非法窃取模型能力。这一指控措辞严厉,直接将商业竞争上升到了知识产权侵犯的法律层面。
然而,这一系列指控也受到了来自多方的质疑。批评者指出,Anthropic本身也曾在2025年就未经授权使用700万册版权书籍进行模型训练一事达成了15亿美元的和解,这一前科使其在道德高地上的站位颇显尴尬。
此次播客上的言论,不过是这条强硬路线的最新延伸。
指控是否成立,谁来验证
如果剥去商业博弈的外壳,阿莫迪提出的问题本身是有一定合理性的。
基准测试数据污染,是整个AI行业面临的普遍困境。随着公开测试集被大规模引用,相关数据不可避免地渗透进各类训练集,这一问题并非中国实验室独有,美国实验室同样深陷其中。阿莫迪刻意将矛头单独指向中国模型,本身就是一种选择性叙述,值得审慎对待。
在实际部署层面,数据也并不完全支持他的判断。在OpenRouter等开发者平台上,中国开源模型的调用量持续攀升,这意味着不少开发者在实际生产环境中选择了这些模型,而非停留在"测试阶段"。
当然,这也不能简单地推翻阿莫迪的论断。基准测试优化与真实能力之间的张力,确实是当前AI评估体系的核心矛盾之一,行业确实需要更透明、更系统的第三方验证机制来厘清这一边界。
从更宏观的视角看,这场争论折射出的是中美AI竞争进入深水区之后,竞争者们在商业利益、技术叙事与地缘政治之间愈发复杂的纠缠关系。阿莫迪对中国AI的持续施压,究竟有多少是出于对真实技术差距的判断,又有多少是服务于Anthropic自身商业生态的防御性策略?这个问题,或许比基准测试本身更难给出一个清晰的答案。
热门跟贴