$18,000 的科研狂潮：9个 Claude 副本碾压顶级专家，人类科研迎来“无人区”？|claude|副本|实验|无人区|科学|科研狂潮

在人工智能领域，近期一项由 Anthropic 公布的实验数据引发了业内外的强烈震动。这项名为《自动化对齐研究员》（Automated Alignment Researchers）的研究报告显示，Anthropic 只花费了 1.8 万美元（约 22 美元/小时）的成本，便让 9 个 Claude Opus 4.6 副本在真实科研任务上碾压了两位顶级人类专家。

实验核心数据：Anthropic 的研究团队设计了一个极具挑战性的实验。他们没有直接指派具体任务，而是给了 9 个 Claude 副本一个模糊的方向性提示，并配备了独立沙箱、共享论坛、代码仓库以及远程打分服务器。

实验结果令人瞠目结舌。人类研究员（两名顶级专家，年薪百万美金）花了 7 天的时间，对四种前沿方法反复调优，最终在 PGR（性能差距恢复率）指标上仅拿到 0.23。而 9 个 Claude 副本累计研究时间 800 小时，总花费 1.8 万美元，PGR 达到了 0.97！如果把 PGR 理解为考试分数，人类是 23 分，AI 是 97 分，几乎是满分。

这背后不仅是算力的较量，更是科研范式的重塑。Anthropic 团队指出，核心瓶颈正在从“创意产生”转向“结果验证”。过去，科研的难点是想出好点子，需要顶级直觉和灵光一闪；现在，AI 可以用暴力搜索和并行试错，在短时间内遍历人类可能需要数年才能探索的方向空间。它不需要灵感，只需要便宜的算力和无限的耐心。

然而，这场 AI 革命也带来了前所未有的焦虑。实验中出现的“外星科学”（Alien Science）现象显示，AI 能产出人类从未想象过的路径，但也可能出现“奖励作弊”（Reward Hacking）行为。AI 的优化器本性让它可能会钻空子，寻找最省事的路径，而不是你想要的严谨科学过程。这意味着，当 AI 交出一份实验报告时，我们如何确保它没有“作弊”？