(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

每当 OpenAI、Google 或 Anthropic 推出新一代前沿大语言模型,AI 领域的从业者都会翘首以盼。大家会一直等待 METR 更新那张如今极具标志性的图表,这份期待才会落下。

METR 是一家人工智能研究非营利机构,机构名称的英文全称是 Model Evaluation & Threat Research,即模型评估与威胁研究。这张图表自去年 3 月首次发布以来,就在人工智能领域的相关探讨中占据重要地位。图表显示,人工智能的部分能力正呈指数级发展,而近期推出的模型,其表现更是超越了这一本就令人瞩目的发展趋势。

Anthropic 旗下性能最强的模型最新版本 Claude Opus 4.5 就是典型案例,该模型于 11 月末正式推出。12 月,METR 发布公告称,这款模型似乎能独立完成一项人类需要约 5 小时才能完成的任务。这一表现即便以指数级发展趋势来预判,也实现了大幅突破。Anthropic 的一名安全研究人员在推特上表示,基于这一研究结果,他将调整自己的研究方向。该公司的另一名员工则直白地发推称:“妈妈快来接我,我害怕了。”

(来源:METR.ORG)
打开网易新闻 查看精彩图片
(来源:METR.ORG)

但实际情况远比这些夸张的反应所呈现的复杂。一方面,METR 对特定模型能力的评估结果存在较大的误差范围。METR 曾在 X 平台明确表示,Claude Opus 4.5 或许只能稳定完成人类约 2 小时能做完的任务,也可能能成功完成人类耗时长达 20 小时的任务。受研究方法本身存在的不确定性影响,目前无法得出确切结论。

METR 的技术人员西德妮・冯・阿克斯(Sydney Von Arx)表示:“人们对这张图表的过度解读体现在多个方面。”

更重要的一点是,这张由 METR 制作的图表并非对人工智能的综合能力进行测算,该机构也从未宣称过这一点。为制作这张图表,METR 主要以编程任务为测试基准对模型进行评估,通过测算或预估人类完成每项任务的耗时来判定任务难度。这一评估标准并未获得所有人的认可。

换句话说,Claude Opus 4.5 能完成人类耗时 5 小时的特定任务,并不代表它已接近取代人类工作者的水平。

METR 成立的初衷是评估前沿人工智能系统带来的风险。尽管该机构因这张指数级发展趋势图表声名远扬,但它也与多家人工智能企业合作,对企业的系统开展更详尽的评估,同时还发布了多项独立研究成果。其中 2025 年 7 月发布的一项研究引发了广泛关注,该研究指出,人工智能编程助手实际上可能会降低软件工程师的工作效率。

这张指数级发展趋势图表为 METR 打响了知名度,而该机构对于这张图表所引发的一众狂热解读,似乎有着复杂的态度。今年 1 月,该图表相关论文的主要作者之一托马斯・奎瓦(Thomas Kwa)发布了一篇博文,回应了外界的部分质疑,并明确指出了图表的局限性。目前 METR 正着手撰写一份更详尽的常见问题解答文档。但奎瓦并不认为这些努力能从根本上改变外界的解读方式。他表示:“我认为无论我们做什么,那些鼓吹炒作的声音终究会忽略所有的前提条件和注意事项。”

尽管如此,METR 的研究团队仍认为,这张图表能为人工智能的发展轨迹提供有价值的参考。阿克斯说:“任何人都绝不能把自身发展的决策依据完全寄托在这张图表上。” 她接着补充道:“但我敢肯定,这一发展趋势会持续下去。”

这张 METR 图表之所以容易引发误解,部分原因在于它的实际内涵远比表面看起来复杂。图表的横轴设计十分简洁,用于标注各个人工智能模型的发布日期。但纵轴的设计却暗藏门道,其作用是记录各模型的时间跨度。这是 METR 独创的一项特殊评估指标,奎瓦和阿克斯均表示,这一指标一直被外界误解

想要准确理解模型时间跨度的含义,了解 METR 测算这一指标的全过程会有所帮助。首先,METR 的研究团队整理了一系列测试任务,这些任务涵盖快速选择题和复杂的编程挑战,且均与软件工程领域相关。随后,该团队让人类程序员尝试完成其中大部分任务,并统计他们的完成耗时,以此为每项任务设定人类完成的基准时间。部分任务让专业程序员完成仅需数秒,而有些任务则需要耗时数小时。

METR 让大语言模型完成这一系列测试任务后发现,先进的模型能轻松完成那些人类耗时短的任务。但随着模型尝试的任务所需的人类完成时间不断增加,模型的任务完成准确率会开始下降。研究人员会根据模型的表现,在人类任务耗时的时间尺度上,找到模型能成功完成约 50% 任务的临界点,这一临界点就是该模型的时间跨度。

这些详细的测算过程,都记录在 METR 发布首张时间跨度图时同步推出的博文和学术论文中。但这张图表在社交媒体上传播时,往往缺少这些背景信息,时间跨度这一指标的真正含义也因此被曲解。其中一种常见的误读是,将图表纵轴的数值理解为模型能独立运行的时长,比如 Claude Opus 4.5 对应的约 5 小时。但事实并非如此,这些数值代表的是,模型能成功完成的任务所需的人类完成耗时。奎瓦发现这一误读现象极为普遍,因此他在近期发布的博文开头就专门对此进行了纠正。当被问及会为网络上传播的图表版本补充哪些信息时,他表示会在所有提及任务完成耗时的地方,都加上 “人类” 这个关键词。

尽管时间跨度的概念较为复杂,且一直被外界广泛误读,但这一概念本身具备基础的参考价值。时间跨度为 1 小时的模型,能将软件工程师部分简单的工作实现自动化;而时间跨度为 40 小时的模型,理论上能独立完成数天的工作。但有部分专家对将人类的任务完成耗时作为量化人工智能能力的有效指标提出了质疑。加州大学伯克利分校的模型评估方向博士生伊尼奥卢瓦・德博拉・拉吉(Inioluwa Deborah Raji)表示:“我并不认为,一项任务的完成耗时更长,就必然意味着这项任务的难度更高,这并非既定事实。”

阿克斯表示,她最初也对将时间跨度作为评估指标的合理性持怀疑态度。而她和同事的分析结果,让她改变了这一看法。研究团队测算出 2025 年初市面上所有主流模型的 50% 任务完成时间跨度后,将这些数据绘制成图表,发现头部模型的时间跨度正随着时间推移不断增加,且提升速度还在加快。这些模型的时间跨度大约每 7 个月就会翻倍,这意味着,2020 年年中,最先进的模型能完成人类耗时 9 秒的任务;2023 年初,能完成人类耗时 4 分钟的任务;2024 年末,能完成人类耗时 40 分钟的任务。阿克斯说:“我可以从理论层面反复探讨这一指标是否合理,但实实在在的发展趋势就摆在那里。”

正是这一极具冲击力的发展趋势,让这张 METR 图表成为了人工智能领域的爆款。很多人都是通过《AI 2027》了解到这张图表的,这篇爆红的内容融合了科幻故事与量化预测,提出超级人工智能可能会在 2030 年灭绝人类的观点。《AI 2027》的作者将这张 METR 图表作为部分预测的依据,并在内容中大量引用。用阿克斯的话来说:“当大多数人通过这种主观性极强的解读方式了解到你的研究成果时,会让人感觉有些别扭。”

当然,也有很多人引用这张 METR 图表时,并未联想到大规模的人类灭绝与灾难。在部分人工智能领域的支持者看来,这一指数级发展趋势预示着,人工智能将很快引领人类进入经济高速增长的新时代。例如,风险投资公司红杉资本近期发布了一篇题为《2026 年:通用人工智能时代来临》的文章,该文以这张 METR 图表为依据,认为能胜任员工或外包工作者角色的人工智能即将出现。这篇文章的作者之一、红杉资本普通合伙人索尼娅・黄(Sonya Huang)表示:“我们撰写这篇文章的初衷,其实是想引发大家的思考:当你的发展规划以百年为时间尺度时,你会作何选择?”

但模型在 METR 图表中实现了 1 小时的时间跨度,并不代表它能在现实工作中取代人类 1 小时的工作量。一方面,用于评估模型的这些任务,无法反映出实际工作中的复杂性和不确定性。在最初的研究中,奎瓦、阿克斯及其同事提出了任务 “复杂程度” 的量化评估标准,评估维度包括模型是否明确知晓自身的评分规则、模型出现错误后是否能轻松重新开始任务。而对于高复杂程度的任务,模型在这两个维度的答案均为否。研究团队发现,模型在完成高复杂程度任务时,表现会明显变差,不过无论是高复杂程度还是低复杂程度的任务,模型的整体表现都呈提升趋势。

即便 METR 设定的最高复杂程度的任务,也无法充分反映出人工智能胜任大部分工作的能力,因为这张图表的评估依据几乎全部是编程任务。伊利诺伊大学厄巴纳 - 香槟分校的计算机科学助理教授丹尼尔・康(Daniel Kang)表示:“模型的编程能力可以不断提升,但并不会凭空掌握其他领域的技能。” 奎瓦及其同事在后续研究中发现,人工智能在其他领域任务中的时间跨度同样呈现指数级增长趋势,但这项后续研究的规范性远不及最初的研究。

尽管存在这些局限性,仍有不少专业人士认可 METR 的这项研究。康表示:“在该领域的现有研究中,METR 的这项研究是设计最为严谨的研究之一。”就连纽约大学前教授、长期对大语言模型持批判态度的加里・马库斯(Gary Marcus),也在博文中称,为制作这张图表开展的大部分研究工作都堪称出色。

可以肯定的是,仍会有部分人将这张 METR 图表解读为人工智能引发人类末日的预言,但实际上它的本质十分朴素:这是一个经过精心设计的科学工具,将人们对人工智能发展的直观感受转化为了具体的数值。METR 的工作人员也坦言,这张图表绝非完美的评估工具。但在人工智能这一新兴且发展迅猛的领域,即便不够完美的工具,也能具备巨大的参考价值。

阿克斯表示:“一群研究人员在重重限制下,尽最大努力打造出了这一评估指标。它在很多方面都存在明显的缺陷,但我依然认为,它是同类型工具中最出色的之一。”

https://www.technologyreview.com/2026/02/05/1132254/this-is-the-most-misunderstood-graph-in-ai/