(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

如果你在关注 AI 新闻,你大概率已经看得眼花缭乱了——AI 堪比淘金热;AI 只是经济泡沫;AI 在抢走你的工作;AI 连个钟表都看不懂……

近期,在这些声音中,斯坦福大学以人为本人工智能研究所(HAI)撰写的“AI 年度成绩单” 新鲜出炉,以帮我们在噪音之中拨云见雾。

尽管有预测说 AI 发展已经触及到了天花板,这份报告显示顶尖模型仍在持续变强。人们拥抱 AI 的速度,比当年接受个人电脑和互联网时都要快。AI 公司创造收入的速度超过了以往任何一轮技术浪潮中的公司,与此同时它们也在数据中心和芯片上砸下数千亿美元。而用来衡量 AI 的基准测试、用来约束 AI 的政策,以及整个就业市场,都在艰难地追赶 AI 的步伐。AI 在狂奔,而剩下的人还在找鞋穿。

这种速度是有代价的。全球 AI 数据中心的耗电量如今可达 29.6 吉瓦,足以在用电高峰时支撑整个纽约州的运转。仅 OpenAI 的 GPT-4o 每年的耗水量,就可能超过 1200 万人的饮用水需求。这些数据揭示了一项演进速度超过我们管理能力的技术。下面我们来看看这份报告里几个关键点。

打开网易新闻 查看精彩图片

中美水准并驾齐驱

Arena 是一个由用户驱动的 AI 模型排行榜,它让用户把相同的提示词同时丢给不同的大语言模型,再根据大量用户的投票结果给模型排名。根据 Arena 的最新数据,美国和中国在 AI 模型性能上几乎并驾齐驱。2023 年初,OpenAI 凭借 ChatGPT 遥遥领先,但随着 Google 和 Anthropic 相继推出自己的模型,这一差距在 2024 年逐渐缩小。2025 年 2 月,中国的 DeepSeek 推出的 R1 一度追平了当时美国最顶尖的模型 ChatGPT。截至 2026 年 3 月,Anthropic 位居榜首,紧随其后的是 xAI、Google 和 OpenAI。DeepSeek 和阿里巴巴等中国模型也不遑多让。如今顶尖 AI 模型之间的差距已经被压缩到发丝之细,它们正在转而比拼成本、可靠性和实际可用性。

(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

报告指出,美国和中国的 AI 优势各有不同。美国拥有更强的 AI 模型、更多的资本,以及估计约 5427 个数据中心,是任何其他国家的 10 倍以上;中国则在 AI 研究论文、专利和机器人领域领先。

随着竞争加剧,OpenAI、Anthropic 和 Google 等公司已经不再公开模型的训练代码、参数数量和数据集规模。“关于如何预测模型的行为,我们有很多东西还不清楚,”南加州大学计算机科学家、该报告的合著者约兰达·吉尔(Yolanda Gil)说。她表示,这种不透明让独立研究人员很难研究如何让 AI 模型变得更安全。

打开网易新闻 查看精彩图片

模型能力进步飞快

尽管有声音预测发展会进入平台期,AI 模型却一直在变得越来越强。按某些衡量标准,它们在旨在测试博士级科学、数学和语言理解能力的考试上已经达到或超过了人类专家的水平。针对 AI 模型的软件工程基准测试 SWE-bench Verified,顶尖成绩从 2024 年的约 60% 跃升到 2025 年的近 100%。2025 年,一个 AI 系统独立完成了天气预报。

“这项技术持续在进步,完全没有进入平台期,我被震惊到了。”吉尔说。

(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

不过 AI 在其他很多领域仍然吃瘪。由于模型是通过处理海量文本和图像来学习,而不是通过亲历物理世界,它们表现出一种“参差不齐的智能”:机器人仍处于起步阶段,只能完成 12% 的家务任务;自动驾驶汽车发展稍快,Waymo 已经在美国五个城市运行,百度的 Apollo Go 也在中国各地接送乘客。AI 也在向法律、金融等专业领域扩展,但目前还没有哪个模型能主导这些领域

打开网易新闻 查看精彩图片

基准测试已经落后

这些进步数据需要保留余地。斯坦福报告指出,用来追踪 AI 进展的基准测试正被模型飞速突破,已经跟不上节奏。有的基准本身就做得不够严谨——一个流行的数学能力基准测试的错误率高达 42%。有的则容易被“作弊”:比如当模型直接在基准测试的数据上接受了训练,它可以学会拿高分而并没有真的变聪明。

由于 AI 实际使用的方式与它被测试的方式很少一致,基准测试的好成绩并不总能转化为真实世界的表现。而对于 AI 智能体和机器人这类复杂的交互式技术,相应的基准测试几乎还不存在。

AI 公司也越来越少公开自己的模型是如何训练的,独立测试得出的结论有时与公司自己报告的不一致。“很多公司不公开自己的模型在某些基准上的表现,尤其是那些涉及‘负责任 AI’的基准,”吉尔说,“你不公开某项基准的表现,这件事本身可能就说明了一些问题。”

打开网易新闻 查看精彩图片

AI 开始影响就业

进入主流视野不到三年,AI 的用户已经覆盖了全球超过一半的人口,普及速度超过了个人电脑和互联网。估计有 88% 的机构组织在使用 AI,大学生里每五人有四人用过 AI。

部署还处于早期,AI 对就业的影响很难量化。不过一些研究显示,AI 已经开始影响特定行业的年轻从业者。斯坦福经济学家 2025 年的一项研究显示,22 到 25 岁软件开发者的就业人数自 2022 年以来下降了近 20%。这一下降未必能全部归因于 AI,更广泛的宏观经济环境也可能是原因,但 AI 看起来确实在其中扮演了角色

(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

雇主们表示招聘可能会继续收紧。麦肯锡 2025 年的一项调查显示,三分之一的组织预计 AI 将在未来一年内缩减他们的员工规模,尤其是服务与供应链运营和软件工程领域。报告引用的研究数据显示,AI 在客户服务领域提升了 14% 的生产力,在软件开发领域提升了 26%,但对那些更依赖判断力的任务,生产力收益并未显现。整体上看,AI 对经济的更大影响还需要更多时间才能看清楚。

打开网易新闻 查看精彩图片

公众专家判断相左

全球范围来看,人们对 AI 既乐观又焦虑:报告引用的益普索(Ipsos)调查显示,59% 的人认为 AI 带来的好处会多于坏处,52% 的人则说 AI 让他们紧张。

值得注意的是,专家和普通公众对 AI 未来的判断差异悬殊,最大的鸿沟出现在对就业的预期上:73% 的专家认为 AI 将对人们的工作方式产生正面影响,但美国公众里持此观点的只有 23%。在 AI 对教育和医疗的影响上,专家同样比公众更乐观,但双方都认同 AI 将损害选举和人际关系。

(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

在受访国家中,美国人对本国政府监管 AI 的信心最低——这是益普索另一项调查的结论。担心联邦 AI 监管力度不够的美国人,多于担心监管过度的人。

打开网易新闻 查看精彩图片

各国政府艰难立法

各国政府都在挣扎着为 AI 立规矩,过去一年里确实有一些进展。欧盟《人工智能法案》的首批禁令已生效,禁止在预测性警务和情感识别中使用 AI。日本、韩国和意大利也通过了各自的国家级 AI 法律。美国联邦政府则走向了去监管化,特朗普总统签署行政命令,试图限制各州对 AI 的监管权。

尽管联邦层面是这样的动作,美国各州立法机构仍然通过了创纪录的 150 项 AI 相关法案。加州通过了具有标志性意义的立法,包括 SB 53 法案,要求 AI 模型开发者履行安全披露义务,并为举报者提供保护。纽约通过了 RAISE 法案,要求 AI 公司公开安全规范并报告重大安全事件。

(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

但吉尔说,尽管立法活动频繁,监管仍然跑在技术后面,因为我们对 AI 本身的理解还不够。“各国政府在监管 AI 上很谨慎,因为……我们很多事情都没搞清楚,”她说,“我们对这些系统还没有很好的把握。”

https://www.technologyreview.com/2026/04/13/1135675/want-to-understand-the-current-state-of-ai-check-out-these-charts/