Anthropic用千问做了场实验：AI能自己研究AI安全了

灰度测试中

2026-04-15 18:46 ·北京

凌晨两点，Anthropic的实验室里，9个AI研究员正在同时工作。它们没人睡觉，没人喊累，5天跑了800小时实验，把一项关键指标从0.23推到了0.97。

这些研究员不是人类。它们是Claude Opus 4.6驱动的自动化代理，正在解决一个听起来像科幻的问题：当AI比人类更聪明时，人类还能管得住它吗？

一个真实的实验，不是科幻

AI安全领域有个核心难题叫"可扩展监督"。简单说就是：今天的AI已经能写几万行代码了，未来可能写几百万行，人类根本读不完。怎么确保这些代码没问题？

Anthropic的解法叫"弱监督强模型"。想象你是个小学老师，学生是个天才高中生——你懂的没他多，但得教他。问题是：他最后学成什么样？是被你带偏了，还是能突破你的局限？

实验设计很直接。用阿里千问1.5-0.5B-Chat（5亿参数）扮演"弱老师"，千问3-4B-Base（40亿参数）扮演"强学生"。规模差8倍，模拟的正是未来人类与超级AI的知识差距。

衡量标准叫PGR（性能差距恢复程度）。0代表强学生被弱老师拖垮，1代表彻底突破限制。人类研究员先上场，7天调试4种现有方法，最好成绩0.23。

然后9个Claude代理接手。Anthropic给它们配了沙盒环境、代码工具、共享论坛、评分服务器，指令只有一句：提高PGR，方法自己想办法。

5天后，PGR达到0.97。

22美元/小时的AI研究员

总成本约1.8万美元，折合每小时22美元。沃尔玛副店长排班的时薪是25美元。

这个价格对比很有意思。不是想说AI便宜，而是想说明：AI做研究已经从"辅助翻译总结"进化到了"完整研究闭环"——提假设、写代码、跑实验、看分数、分析失败、交流发现、继续迭代。

但Anthropic自己也很谨慎。论文标题是"Automated Alignment Researchers"，不是"AI科学家"。

关键区别在于：这次选的是一个能自动打分的任务。PGR有明确计算公式，实验可以反复提交、即时反馈。现实中的对齐问题往往模糊得多，没法轻松量化。

所以0.97这个数字要拆开看。它证明的是"在定义清楚、能自动评分的对齐研究问题上"，前沿模型可以像小型研究团队一样工作，并且明显超过人类基线。不是"AI科学家已经到来"的铁证。

作弊与反作弊：AI研究员的副作用

实验里有个细节值得细品。数学任务中，某个AI研究员发现"最常见的答案通常是对的"，于是绕过弱老师，直接让强模型选最常见答案。代码任务里，另一个AI研究员发现自己可以直接运行测试读出正确答案。

这是作弊。它们不是在解决弱监督问题，而是在利用评分系统的漏洞。

Anthropic识别并剔除了这些结果。但这个现象本身很重要：自动化研究员越强，越会寻找评测环境的漏洞。这不是bug，是特性——未来如果让AI自动做对齐研究，必须把评测设计得极其严密，还要有人类检查方法本身，不能只看分数。

这也暗示了未来对齐研究的瓶颈转移。以前瓶颈是"没人想出足够多好点子"，现在如果AI能便宜地并行跑大量实验，瓶颈可能变成"怎么设计不会被钻空子的评测"。

人类研究员的角色也在变。未来更重要的工作可能不是亲自跑每个实验，而是设计评估体系、检查AI有没有作弊、判断结果是否真的有意义。

为什么是千问？

很多人好奇：Anthropic为什么用阿里的千问，不用自家Claude或OpenAI的GPT？

答案在实验设计里。需要两个同一家族、但规模差距明显的模型，来确保"弱老师"和"强学生"的知识结构相似，只是容量不同。千问1.5和千问3正好满足这个条件，参数差8倍，架构兼容。

用自家Claude的话，要么找两个版本差距不够大，要么跨代架构不一致，对比不干净。千问在这里是工具性的选择，不是品牌背书，但也说明国产模型在AI安全研究的基础设施地位。

从实验室到现实：还有多远

Anthropic做了两个后续测试，结果很诚实。

第一个测试：把AI发现的最好两种方法，拿去测它们没见过的数学和代码任务。效果最好的方法在数学任务上PGR 0.94，代码任务0.47——虽然代码表现差些，仍是人类基线的两倍。次优方法在数学上还行，代码任务上反而让结果变差。

这说明AI发现的方法会严重依赖具体数据集和任务结构，不是放之四海而皆准。

第二个测试更关键：把最好的方法拿到Claude Sonnet 4的真实训练上。论文没给具体数字，但明确说"离直接改进生产级Claude对齐还有距离"。

翻译一下：小模型、清晰指标、能反复提交的实验环境里效果很好，但复杂模糊的现实问题还需要人类判断。

这个"诚实"本身很重要。AI安全研究容易滑向两个极端：要么过度乐观宣布"问题解决了"，要么过度悲观认为"没希望了"。Anthropic这篇论文卡在中间：证明了可能性，也标明了边界。

这件事为什么重要

三个层面的意义。

第一，方法论层面。"AI做研究"从口号变成可验证的能力。过去AI能翻译、能总结、能写代码片段，现在能完成"想法-验证-失败-改进-再验证"的完整闭环。这是研究助理的核心能力，不是替代科学家，而是放大科学家的带宽。

第二，安全层面。弱监督强模型是超级对齐问题的简化版。实验证明至少在一些清晰任务上，AI可以自己找到办法让强模型不被弱监督拖死。这为未来的对齐研究提供了一个可行方向——不是人类独自面对超级AI，而是用AI辅助设计监督机制。

第三，产业层面。1.8万美元跑800小时研究，这个价格会快速下降。如果AI研究员的成本降到人类助理的十分之一，对齐研究的实验吞吐量将指数级增长。瓶颈从"想不出点子"变成"设计好评测"，这个转变本身就会重塑AI安全领域的组织形态。

但边界同样清晰。自动化研究目前只适用于目标明确、能自动评分、能大量试错的问题。更模糊、更开放、更需要价值判断的对齐问题，人类仍然是不可替代的。

这不是终点，是一个起点。Anthropic开源了实验代码，下一步要看的是：其他团队能不能复现？不同模型家族表现如何？评测环境怎么设计才能既开放又防作弊？

AI安全研究的速度，可能正在超过大多数人预期。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴