AI打爆人类题库！16小时独立工作，程序员要失业？

我超有瓜

2026-05-14 18:34 ·福建

AI能连续工作16小时，人类出的考题不够用了。

AI“考爆”了，不是它错，是题太简单

通用人工智能的到来，或许比我们预想的要快。至少在编程领域，变革的浪潮已经清晰可见。

最近，一个名为Claude Mithras的模型，在权威评测中取得了令人震惊的成绩。

这好比学霸与学神的区别：学霸考100分，是努力达到了极限；学神考100分，是因为试卷满分只有100分。

评测机构METR在测试新一代模型时，首次遇到了“测不准”的情况。

并非模型出错，而是人类设计的题库已经不够用了。

你给孩子出考题，本来以为够难了，结果孩子全对，不是他只会这么多，是你出的题最多就值这么多分。AI现在就是这样。

过去，人们测试AI，主要看它能否解答单点问题，比如数学计算、代码片段或语言理解。

但现在，新的测试方向聚焦于另一件事：AI能否像一个真正的员工一样，连续、独立地完成一项复杂任务。

例如，一个原本需要程序员花费数小时的工作，交给AI。

看它能否自己阅读理解代码库、理解系统架构、制定解决方案、调试错误，并最终完整交付。

这种独立工作的持久力，被称为“任务时间跨度”。

几年前，AI只能处理几秒钟级别的任务，比如写一行代码。

后来，进化到几分钟完成一个简单函数。再后来，能花一小时搞定一个小模块。

而最新一代的模型，其独立工作时间已经轻松超过16小时。

关键点来了：METR评测中最难的题目，耗时就是16小时。

所以，不是模型只能工作16小时，而是题库里根本没有更复杂的题目了。

这标志着一个临界点：AI开始突破人类为它设定的能力上限。

从“工具”到“员工”，AI角色变了

互联网时代，自动化的是信息流转。

AI时代，真正开始自动化的，是“认知劳动”。

这种变化，在编程和网络安全行业感受最为直接。

原本，AI编程是程序员的得力助手。但照此发展，未来可能真的不再需要那么多程序员了。

AI不仅能写代码，更能理解需求、设计架构、持续调试，完成一个完整的开发闭环。

过去一个软件开发团队需要10个人，如果AI能独立完成其中80%的工作，那还需要几个人？

这不是危言耸听，是正在发生的事。

网络安全领域同样如此。一些安全公司发现，AI不再只是辅助人类寻找漏洞，而是能像经验丰富的高级黑客一样，自动将多个微小漏洞串联起来，形成完整的攻击链。

过去一个团队需要数周才能完成的渗透测试，AI可能只需几小时甚至几十分钟。

这也催生了“用AI对抗AI”的新赛道：你拿AI攻击，我就拿AI防守。

人跑不赢AI，但AI可以跑赢AI。

当然，不必过度恐慌或神化。今天的AI依然会犯错误，会产生“幻觉”，会偏离轨道，也远未达到真正理解世界的人类级智能。

它距离所谓的“技术奇点”或“外星文明”般的超级智能，还有很长的路要走。

真正值得警惕的，是AI进步的速度和方式

但真正值得警惕的，不是AI是否已成“神”，而是它进步的速度和方式。

过去的AI，更像一个增强版的搜索引擎，有问必答。你问它问题，它给你答案。

未来的AI，将真正成为一个可以委派任务、独立工作的数字员工。

你给它一个目标，它自己规划路径、执行任务、交付结果。

更深层的问题是：如果AI未来开始自己研发更强的AI呢？

现在是人研发AI。如果AI的编程能力已经超过人类，那它完全可以自己写代码、自己优化自己。

到那时候，技术进步本身将被AI加速，其增长曲线可能不再是简单的指数增长，而是“指数的指数”增长。

评测题库被AI“打爆”，是一个极具象征意义的信号，它告诉我们三件事：

变革已至，且正在加速。不是未来某一天，就是现在。

衡量AI的标准变了。从“会不会做这道题”变成了“能不能独立完成一项工作”。

人类需要重新思考自己在工作中的位置。当AI能连续工作16小时不休息、不出错、不抱怨，人类的核心竞争力在哪里？

这不是要制造焦虑，而是提醒：适应的最好时机是昨天，其次是现在。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴