AI能连续工作16小时,人类出的考题不够用了。

打开网易新闻 查看精彩图片

AI“考爆”了,不是它错,是题太简单

通用人工智能的到来,或许比我们预想的要快。至少在编程领域,变革的浪潮已经清晰可见。

最近,一个名为Claude Mithras的模型,在权威评测中取得了令人震惊的成绩。

这好比学霸与学神的区别:学霸考100分,是努力达到了极限;学神考100分,是因为试卷满分只有100分

评测机构METR在测试新一代模型时,首次遇到了“测不准”的情况。

并非模型出错,而是人类设计的题库已经不够用了。

你给孩子出考题,本来以为够难了,结果孩子全对,不是他只会这么多,是你出的题最多就值这么多分。AI现在就是这样。

过去,人们测试AI,主要看它能否解答单点问题,比如数学计算、代码片段或语言理解。

但现在,新的测试方向聚焦于另一件事:AI能否像一个真正的员工一样,连续、独立地完成一项复杂任务。

例如,一个原本需要程序员花费数小时的工作,交给AI。

打开网易新闻 查看精彩图片

看它能否自己阅读理解代码库、理解系统架构、制定解决方案、调试错误,并最终完整交付。

这种独立工作的持久力,被称为“任务时间跨度”。

几年前,AI只能处理几秒钟级别的任务,比如写一行代码。

后来,进化到几分钟完成一个简单函数。再后来,能花一小时搞定一个小模块。

而最新一代的模型,其独立工作时间已经轻松超过16小时

关键点来了:METR评测中最难的题目,耗时就是16小时

所以,不是模型只能工作16小时,而是题库里根本没有更复杂的题目了。

这标志着一个临界点:AI开始突破人类为它设定的能力上限。

打开网易新闻 查看精彩图片

从“工具”到“员工”,AI角色变了

互联网时代,自动化的是信息流转。

AI时代,真正开始自动化的,是“认知劳动”。

这种变化,在编程和网络安全行业感受最为直接。

原本,AI编程是程序员的得力助手。但照此发展,未来可能真的不再需要那么多程序员了。

AI不仅能写代码,更能理解需求、设计架构、持续调试,完成一个完整的开发闭环。

过去一个软件开发团队需要10个人,如果AI能独立完成其中80%的工作,那还需要几个人?

这不是危言耸听,是正在发生的事。

网络安全领域同样如此。一些安全公司发现,AI不再只是辅助人类寻找漏洞,而是能像经验丰富的高级黑客一样,自动将多个微小漏洞串联起来,形成完整的攻击链。

过去一个团队需要数周才能完成的渗透测试,AI可能只需几小时甚至几十分钟

打开网易新闻 查看精彩图片

这也催生了“用AI对抗AI”的新赛道:你拿AI攻击,我就拿AI防守。

人跑不赢AI,但AI可以跑赢AI。

当然,不必过度恐慌或神化。今天的AI依然会犯错误,会产生“幻觉”,会偏离轨道,也远未达到真正理解世界的人类级智能。

它距离所谓的“技术奇点”或“外星文明”般的超级智能,还有很长的路要走。

真正值得警惕的,是AI进步的速度和方式

但真正值得警惕的,不是AI是否已成“神”,而是它进步的速度和方式。

过去的AI,更像一个增强版的搜索引擎,有问必答。你问它问题,它给你答案。

未来的AI,将真正成为一个可以委派任务、独立工作的数字员工。

你给它一个目标,它自己规划路径、执行任务、交付结果。

更深层的问题是:如果AI未来开始自己研发更强的AI呢?

现在是人研发AI。如果AI的编程能力已经超过人类,那它完全可以自己写代码、自己优化自己。

到那时候,技术进步本身将被AI加速,其增长曲线可能不再是简单的指数增长,而是“指数的指数”增长。

打开网易新闻 查看精彩图片

评测题库被AI“打爆”,是一个极具象征意义的信号,它告诉我们三件事:

变革已至,且正在加速。不是未来某一天,就是现在。

衡量AI的标准变了。从“会不会做这道题”变成了“能不能独立完成一项工作”。

人类需要重新思考自己在工作中的位置。当AI能连续工作16小时不休息、不出错、不抱怨,人类的核心竞争力在哪里?

这不是要制造焦虑,而是提醒:适应的最好时机是昨天,其次是现在。