科技圈最近炸锅了。有专家放话,说再过一年左右,AI掌握的知识量就要超过全人类最顶尖的专家总和。这事儿听着挺玄乎,但看看数据,还真让人心里发毛。有个叫“人类最后的考试”(HLE)的测试,原本是科技大佬们想给AI设个“路障”,看看这些系统到底有多聪明。结果现在看来,这路障马上就要被推平了。

打开网易新闻 查看精彩图片

这个HLE可不简单,它绝对不是那种在网上随便搜搜就能找到答案的测试。里面塞了2500道精心挑选的难题,涵盖了火箭科学、神话传说、生理学等一百多个领域。每一道题都至少需要博士级的理解能力才能做出来。以前大家觉得,谁能在这个考试里考个接近满分,那绝对是“全能专家”,地球上也没几个人能做到。

咱们把时间拨回两年前。那时候大名鼎鼎的ChatGPT刚出来,在这个考试上只拿了3%的分数,惨不忍睹。Google和Anthropic家的AI也没好到哪去。当时搞科研的人松了口气,觉得这证明了AI和人类顶尖大脑之间还有道跨不过去的鸿沟。可谁能想到,这鸿沟填得太快了。上个月,Google的Gemini模型考了45.9%,比它第一次尝试的18.8%翻了一倍多。Anthropic的Claude也不甘示弱,考到了34.2%,而且进步速度飞快。

这题目到底是怎么来的?说出来吓你一跳。这是Scale公司和AI安全中心搞出来的。为了出题,他们搞了个全球悬赏,奖金池高达50万美元。来自大约50个国家的专家们凑了7万道题。研发团队先把那些现有AI模型能答上来的题全删了,剩下1.3万道,最后又精挑细选剩下2500道。很多题目到现在还处于保密状态,就是怕AI在网上偷看答案或者被训练数据“污染”。

照这个速度发展下去,AI拿满分是迟早的事。Scale的研究负责人CalvinZhang说,他们本来是想造一个只有极少数人类能解决的基准测试,但这几年语言模型的进步简直疯了。GoogleDeepMind的产品经理KateOlszewska也直言,如果大家真把这事儿当成头等大事来抓,满分很快就能实现。

这一旦发生,意义可就大了。这让人想起1997年IBM的深蓝电脑击败国际象棋冠军卡斯帕罗夫。那时候大家都觉得不可思议,现在AI又要突破人类知识的边界了。一旦AI在HLE上拿了100%,这就意味着现有的学术测试对它来说已经没难度了。以后要想测试AI,可能得用那些连人类都不知道答案的问题才行。

不过咱们也别太慌。CalvinZhang说了,有些领域AI还是搞不定,比如做外科手术这种动手的活儿,或者需要做复杂判断、发挥创造力的工作。这些还得靠咱们人类自己。

大家觉得AI以后会取代哪些工作?欢迎在评论区聊聊。