Anthropic掌门人炮轰中国AI模型针对测试进行优化，实际能力有限|ai模型|anthropic|中国|基准|旗舰模型

2026年2月25日，Anthropic首席执行官达里奥·阿莫迪在知名播客主持人尼基尔·卡马斯的节目上抛出了一颗重磅炸弹。

他直言，大量来自中国的人工智能模型在基准测试上存在刷分行为，其能力更多源于对美国大型实验室的"提炼"，而非真正意义上的自主研发。

这或许是迄今为止，美国AI头部实验室现任CEO对中国同行最为公开、最为尖锐的一次指控。

阿莫迪的核心论据是一个颇为具体的例子。他表示，某些中国模型在公开软件工程基准测试中表现亮眼，但一旦换成未公开发布的私有测试集，分数便出现明显下滑，这一落差恰恰暴露了"针对题目刷分"与"真实解题能力"之间的本质区别。他总结道，"这些模型针对基准测试的优化，远大于针对实际应用的优化"。

值得一提的是，阿莫迪同时给出了自己的经济学判断：在人工智能这个行业里，质量的优先级远高于价格。他以雇佣员工打比方，认为能力的分布遵循幂律规律，最顶尖的人才与排名一万开外的人才之间存在不可忽视的差距，AI模型亦然。

这套逻辑当然不是随机说出来的。DeepSeek早些时候以极低的训练成本宣称达到了前沿性能，直接冲击了Anthropic和OpenAI赖以维系高价定价体系的核心叙事，阿莫迪此时的表态，显然有一定的防御性商业考量在里面。

Anthropic对华的一贯敌视强硬姿态

理解这次发言，有一个不可忽略的背景，那就是Anthropic长期以来对中国AI持有系统性的强硬立场。

早在2025年初，阿莫迪便公开撰文，将对华芯片出口管制称为"决定AI未来走向最重要的政策变量"，并游说美国政府进一步收紧管制。他甚至在达沃斯公开批评英伟达向中国出售H200芯片的决定，称此举"简直疯了"，引发业界广泛关注，也与英伟达CEO黄仁勋产生了罕见的公开分歧。

更早之前，Anthropic在2025年正式指控中国三家AI公司：DeepSeek、Moonshot AI和Minimax，称这三家机构通过约24000个虚假账号对Claude系统实施"提炼攻击"，涉嫌非法窃取模型能力。这一指控措辞严厉，直接将商业竞争上升到了知识产权侵犯的法律层面。

然而，这一系列指控也受到了来自多方的质疑。批评者指出，Anthropic本身也曾在2025年就未经授权使用700万册版权书籍进行模型训练一事达成了15亿美元的和解，这一前科使其在道德高地上的站位颇显尴尬。

此次播客上的言论，不过是这条强硬路线的最新延伸。

指控是否成立，谁来验证

如果剥去商业博弈的外壳，阿莫迪提出的问题本身是有一定合理性的。

基准测试数据污染，是整个AI行业面临的普遍困境。随着公开测试集被大规模引用，相关数据不可避免地渗透进各类训练集，这一问题并非中国实验室独有，美国实验室同样深陷其中。阿莫迪刻意将矛头单独指向中国模型，本身就是一种选择性叙述，值得审慎对待。

在实际部署层面，数据也并不完全支持他的判断。在OpenRouter等开发者平台上，中国开源模型的调用量持续攀升，这意味着不少开发者在实际生产环境中选择了这些模型，而非停留在"测试阶段"。

当然，这也不能简单地推翻阿莫迪的论断。基准测试优化与真实能力之间的张力，确实是当前AI评估体系的核心矛盾之一，行业确实需要更透明、更系统的第三方验证机制来厘清这一边界。

从更宏观的视角看，这场争论折射出的是中美AI竞争进入深水区之后，竞争者们在商业利益、技术叙事与地缘政治之间愈发复杂的纠缠关系。阿莫迪对中国AI的持续施压，究竟有多少是出于对真实技术差距的判断，又有多少是服务于Anthropic自身商业生态的防御性策略？这个问题，或许比基准测试本身更难给出一个清晰的答案。