AI智商要碾压人类了？这场“终极考试”或撑不过一年，人类无用论|ai智商|卡斯帕罗夫|国际象棋|终极考试

科技圈最近炸锅了。有专家放话，说再过一年左右，AI掌握的知识量就要超过全人类最顶尖的专家总和。这事儿听着挺玄乎，但看看数据，还真让人心里发毛。有个叫“人类最后的考试”（HLE）的测试，原本是科技大佬们想给AI设个“路障”，看看这些系统到底有多聪明。结果现在看来，这路障马上就要被推平了。

这个HLE可不简单，它绝对不是那种在网上随便搜搜就能找到答案的测试。里面塞了2500道精心挑选的难题，涵盖了火箭科学、神话传说、生理学等一百多个领域。每一道题都至少需要博士级的理解能力才能做出来。以前大家觉得，谁能在这个考试里考个接近满分，那绝对是“全能专家”，地球上也没几个人能做到。

咱们把时间拨回两年前。那时候大名鼎鼎的ChatGPT刚出来，在这个考试上只拿了3%的分数，惨不忍睹。Google和Anthropic家的AI也没好到哪去。当时搞科研的人松了口气，觉得这证明了AI和人类顶尖大脑之间还有道跨不过去的鸿沟。可谁能想到，这鸿沟填得太快了。上个月，Google的Gemini模型考了45.9%，比它第一次尝试的18.8%翻了一倍多。Anthropic的Claude也不甘示弱，考到了34.2%，而且进步速度飞快。

这题目到底是怎么来的？说出来吓你一跳。这是Scale公司和AI安全中心搞出来的。为了出题，他们搞了个全球悬赏，奖金池高达50万美元。来自大约50个国家的专家们凑了7万道题。研发团队先把那些现有AI模型能答上来的题全删了，剩下1.3万道，最后又精挑细选剩下2500道。很多题目到现在还处于保密状态，就是怕AI在网上偷看答案或者被训练数据“污染”。

照这个速度发展下去，AI拿满分是迟早的事。Scale的研究负责人CalvinZhang说，他们本来是想造一个只有极少数人类能解决的基准测试，但这几年语言模型的进步简直疯了。GoogleDeepMind的产品经理KateOlszewska也直言，如果大家真把这事儿当成头等大事来抓，满分很快就能实现。

这一旦发生，意义可就大了。这让人想起1997年IBM的深蓝电脑击败国际象棋冠军卡斯帕罗夫。那时候大家都觉得不可思议，现在AI又要突破人类知识的边界了。一旦AI在HLE上拿了100%，这就意味着现有的学术测试对它来说已经没难度了。以后要想测试AI，可能得用那些连人类都不知道答案的问题才行。

不过咱们也别太慌。CalvinZhang说了，有些领域AI还是搞不定，比如做外科手术这种动手的活儿，或者需要做复杂判断、发挥创造力的工作。这些还得靠咱们人类自己。

大家觉得AI以后会取代哪些工作？欢迎在评论区聊聊。