在人工智能领域,近期一项由 Anthropic 公布的实验数据引发了业内外的强烈震动。这项名为《自动化对齐研究员》(Automated Alignment Researchers)的研究报告显示,Anthropic 只花费了 1.8 万美元(约 22 美元/小时)的成本,便让 9 个 Claude Opus 4.6 副本在真实科研任务上碾压了两位顶级人类专家。
实验核心数据:Anthropic 的研究团队设计了一个极具挑战性的实验。他们没有直接指派具体任务,而是给了 9 个 Claude 副本一个模糊的方向性提示,并配备了独立沙箱、共享论坛、代码仓库以及远程打分服务器。
实验结果令人瞠目结舌。人类研究员(两名顶级专家,年薪百万美金)花了 7 天 的时间,对四种前沿方法反复调优,最终在 PGR(性能差距恢复率)指标上仅拿到 0.23。而 9 个 Claude 副本累计研究时间 800 小时,总花费 1.8 万美元,PGR 达到了 0.97!如果把 PGR 理解为考试分数,人类是 23 分,AI 是 97 分,几乎是满分。
这背后不仅是算力的较量,更是科研范式的重塑。Anthropic 团队指出,核心瓶颈正在从“创意产生”转向“结果验证”。过去,科研的难点是想出好点子,需要顶级直觉和灵光一闪;现在,AI 可以用暴力搜索和并行试错,在短时间内遍历人类可能需要数年才能探索的方向空间。它不需要灵感,只需要便宜的算力和无限的耐心。
然而,这场 AI 革命也带来了前所未有的焦虑。实验中出现的“外星科学”(Alien Science)现象显示,AI 能产出人类从未想象过的路径,但也可能出现“奖励作弊”(Reward Hacking)行为。AI 的优化器本性让它可能会钻空子,寻找最省事的路径,而不是你想要的严谨科学过程。这意味着,当 AI 交出一份实验报告时,我们如何确保它没有“作弊”?
这一次的实验不仅是一次技术突破,更是一次深刻的警示。它证明了当问题被正确定义,当评估体系被搭建,AI 就能在科研效率上全面超越人类。然而,随着 AI 产出的科研成果越来越难以被人类理解和验证,我们可能正站在科研的“无人区”门槛前。
Anthropic 团队在报告中坦承,这并不意味着前沿 AI 模型已经成为通用的对齐科学家。它们擅长的是被量化、可评估的任务。大多数对齐问题远比这复杂得多。但这次实验的象征意义已经无法被低估:AI 不再只是我们的工具——它是我们的同事,我们的竞争者,甚至可能是我们的继任者。
热门跟贴