刚刚，Anthropic内部考题开源！年薪百万工程师，被AI秒了

新智元

2026-01-23 13:16 ·北京 ·《新智元》官方网易号

新智元报道

编辑：Aeneas 好困

【新智元导读】史上最强模型Claude Opus 4.5发布后，全面碾压了人类顶尖工程师，逼得Anthropic不得不被迫放弃招聘笔试！现在，内部考题已经全面开源了。

就在刚刚，人类程序员最后的堡垒崩塌了。

曾经，Anthropic为自己应聘者准备了一份出了名困难的考题，让他们在家完成。

这份考题一直效果不错，直到Claude Opus 4.5的出现。

有了这个史上最强模型的加持，人类应聘者轻松做出各种考题，因而这份考卷也就失效了。

今天，因为无法再通过传统技术笔试筛选人才，Anthropic被迫开源了旧版试题，并且向全世界求助：有没有办法，让我们真正测试出人类的编程能力？

作为告别，Anthropic选择将把最初版本的测试题发布，作为一个面向大众的公开挑战。

地址：https://github.com/anthropics/original_performance_takehome

在这个测试题中，候选人需要逐步进行多核并行优化、SIMD向量化、VLIW指令打包优化，并用Perfetto trace做分析。

他们依然相信：在无限时间下，最强人类依然能超越Claude的极限。

同时他们强调：如果哪个人类能击败Claude Opus 4.5，请务必联系Anthropic！

刚刚，Claude Opus 4.5把我们的笔试题秒了

在AI时代，究竟该如何进行软件工程师的面试？

Anthropic在这篇博客里，进行了细致的探索。

博客地址：https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

要知道，曾经Anthropic有一套完美的筛选考题。

可随着AI能力的指数级提升，今天还能完美区分菜鸟和大神的试题，明天就可能被新模型秒杀，这套考题就瞬间失去意义了！

比如，自2024年初，他们的性能工程团队一直在用下面这套题：要求候选人为一个模拟加速器优化代码。

这套题在1000多名面试者中，筛出了几十个最顶尖的工程师。正是这些人，点亮了Anthropic的Trainium集群，发布了从Claude 3 Opus至今的每一个模型。

结果，每个新版本的Claude，都在让这套题失效！

同样的时间里，Claude Opus 4已经优于大多数人类申请者，Anthropic勉强还能筛出最强的人类。

结果Claude Opus 4.5的横空出世，直接追平了最强人类天花板！

如果给无限的时间，人类或许还能险胜，但在面试时间限制下，已经根本无法区分谁是顶尖候选人，谁是最强模型了。

为此，Anthropic已经把这套题迭代了三个版本，甚至越来越「剑走偏锋」。

这套测试的诞生

2023年11月，Anthropic正准备发布Claude Opus 3。

新的TPU和GPU集群就位，大Trainium集群即将上线，公司在算力上的投入是过去的数倍，但性能工程师却严重紧缺。

为此，Anthropic公司绩效优化团队负责人Tristan Hume在Twitter上发帖求贤，虽然收到了大量简历，但标准的面试流程太耗时了。

于是，他花了两个星期设计了一个Take-home测试，从而精准识别出真正硬核的候选人。

设计初衷

为了做出一个好玩的、能让候选人兴奋的东西，并且能以「高分辨率」扫描他们的技术实力，Tristan Hume做了精心设计。

相比现场面试，这种形式在评估性能工程技能上更有优势：

时间更充裕：4小时（后改为2小时）的窗口比50分钟的面试更能反映真实工作状态。
环境更真实：没有面试官盯着，候选人在自己的编辑器里干活，零干扰。
深度考察：性能优化需要理解系统、造工具，这在短面试里很难体现。
兼容AI辅助：明确允许使用AI。因为对于长线难题，AI很难直接给出完美解。

另外，Tristan还构建了一个Python模拟器，模拟了一个具有TPU特征的假加速器。

候选人需要优化在这台机器上运行的代码，并通过一个支持热重载的Perfetto trace来观察执行过程，该trace会展示每一条指令，效果类似公司在Trainium上使用的工具链。

这台模拟机器包含了一些让加速器优化变得很有挑战性的特性，包括：

手动管理的scratchpad内存（不同于CPU，加速器通常需要显式进行内存管理）
VLIW架构（每个周期可以并行运行多个执行单元，需要高效地进行指令打包）
SIMD（一条指令同时对多个数据元素进行向量化运算）
多核架构（需要将工作负载合理地分配到多个核心上）

这些硬核要素，都让底层优化变得更有趣。

这个任务是一个并行的树遍历问题，刻意设计成不带深度学习背景的形式，因为大多数性能工程师并没有做过深度学习工作，具体知识可以在入职后再学习。

该问题的灵感来自于无分支的SIMD决策树推理——这是一个经典的机器学习优化挑战。

候选人一开始拿到的是一个完全串行的实现，需要逐步挖掘并利用这台机器的并行能力。

早期战果：它曾完美工作

最初的效果非常好。

一位得分遥遥领先的候选人入职后，立即开始优化算子，并解决了一个阻碍发布的编译器Bug。

在之后的一年半里，这套题帮忙组建了核心团队，甚至发掘了几位本科刚毕业但实力超群的天才。

许多候选人甚至因为觉得太好玩，在超时后还在继续优化。最强的一份提交，甚至包含了一个完整的迷你优化编译器。

第一轮崩溃：Claude Opus 4进场

到了25年5月，Claude 3.7 Sonnet已经进化到让一半的候选人只要把题丢给它，就能拿高分。

随后，Tristan用Claude Opus 4的预发布版本试了一下。结果令人绝望：在4小时内，它的代码比几乎所有人类都要好。

这并非他第一次被Claude击败。早在2023年，Claude 3 Opus和3.5 Sonnet就先后攻破了他们精心准备的现场面试题。

对于这次崩溃，Tristan做了紧急修复：既然问题深度不够，那就加码。他重写了启动代码，增加了机器特性的复杂度，并把时间缩短到2小时。

第二版侧重考察巧妙的优化洞察力，而非单纯的代码量。这招奏效了——但是，也只撑了几个月而已。

第二轮崩溃：Claude Opus 4.5的降维打击

后来，当Tristan拿到Claude Opus 4.5的预发布版本时，他眼睁睁看着Claude Code跑了2小时。它像个老练的工程师，先解决了初始瓶颈，搞定了所有常规微优化。

然后它卡住了，遇到了一个看似不可逾越的内存带宽瓶颈——大多数人类也卡在这里。但当他提示「理论极限」时，它思考片刻，竟然找到了那个只有极少数人类能发现的巧妙技巧。

最终，它的得分与人类历史最高纪录持平（而那个人类考生还是在重度依赖 Claude 4 的情况下完成的）。

更可怕的是，Anthropic在内部的「测试时计算」框架中验证发现，它不仅能在2小时内击败人类，甚至随着思考时间的增加，分数还在不断上涨。

大麻烦来了：即将发布的模型，将彻底摧毁公司招聘这个模型开发者的测试题。所以，他们只能采用这个策略——把工作直接外包给Claude Code。

艰难的抉择

有人建议禁止AI，但当Tristan并未采纳。因为在真实工作中，人类就是需要和 AI协作。

也有人建议提高及格线，但这会导致候选人沦为AI的看客，甚至因跟不上AI的思路而不知所措。

性能工程师的真实工作其实更多是艰难的调试、系统设计、分析，以及让AI生成的代码更优雅。这些很难通过客观测试来考察。

到底该怎样设计一个「像真实工作」的面试题？这个任务从未如此艰难。

尝试1：换个题型？被秒杀

首先，Tristan试图设计一个更难的内核优化问题：2D TPU寄存器上的高效数据转置，且要避免Bank冲突。这是一个非常棘手的真实难题。

然而，Claude Opus 4.5发现了一个他都没想到的绝佳优化路径：它重写了整个计算过程，直接绕过了转置的难点。即便他修补了漏洞，Claude Code配合深度思考（Ultrathink）功能，依然能找出修复Bank冲突的技巧。

这让他意识到，这类问题在已有代码库中太常见，Claude已经拥有了海量的训练数据「经验」。

尝试2：变得更古怪

既然「真实」行不通，他只能追求「分布外（Out of distribution）」——即AI没见过的数据。

他想到了Zachtronics的编程解谜游戏。这类游戏使用极度受限的指令集，迫使你用非传统方式编程。

于是，他设计了一套全新的测试：使用微小且极度受限的指令集，目标是指令数最小化。没有可视化工具，没有调试器——候选人必须自己造工具（比如让AI生成调试器）。

他把这套题丢给Claude Opus 4.5，它终于失败了。

这套新题效果不错，分数与候选人的实际能力高度相关。但Tristan心中仍有遗憾：他们放弃了原版试题的「真实感」和「多样性深度」。

但这或许就是代价。

「真实感」已经成为了奢侈品。原版试题之所以有效，因为它像以前的工作；现在的试题之所以有效，因为它模拟了一个全新的、AI尚未涉足的领域。

公开向人类挑战：原版测试题开源！

最终，Anthropic宣布：将原版测试题开源。虽然Claude很强，但在无限时间下，人类专家的极限仍高于AI。

目前，Claude的战绩如下（周期数越低越好）：

2164：Claude Opus 4
1790：Claude Opus 4.5（随手一跑）
1487：Claude Opus 4.5（11.5小时超长思考后）
1363：Claude Opus 4.5（改进框架后）

Tristan表示：如果你能优化到1487周期以下，击败Claude的最佳表现，请一定联系他们！

同时，他也欢迎大家通过常规流程申请，体验一下人类要靠多久才能被攻破的「防Claude」新考题。

参考资料：

https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴