斯坦福2026AI指数报告发布：5张图看懂AI正在发生什么|人工智能|吉尔|机器人|查尔斯·维利尔斯·斯坦福|美国|麻省

如果你在关注 AI 新闻，你大概率已经看得眼花缭乱了——AI 堪比淘金热；AI 只是经济泡沫；AI 在抢走你的工作；AI 连个钟表都看不懂……

近期，在这些声音中，斯坦福大学以人为本人工智能研究所（HAI）撰写的“AI 年度成绩单” 新鲜出炉，以帮我们在噪音之中拨云见雾。

尽管有预测说 AI 发展已经触及到了天花板，这份报告显示顶尖模型仍在持续变强。人们拥抱 AI 的速度，比当年接受个人电脑和互联网时都要快。AI 公司创造收入的速度超过了以往任何一轮技术浪潮中的公司，与此同时它们也在数据中心和芯片上砸下数千亿美元。而用来衡量 AI 的基准测试、用来约束 AI 的政策，以及整个就业市场，都在艰难地追赶 AI 的步伐。AI 在狂奔，而剩下的人还在找鞋穿。

这种速度是有代价的。全球 AI 数据中心的耗电量如今可达 29.6 吉瓦，足以在用电高峰时支撑整个纽约州的运转。仅 OpenAI 的 GPT-4o 每年的耗水量，就可能超过 1200 万人的饮用水需求。这些数据揭示了一项演进速度超过我们管理能力的技术。下面我们来看看这份报告里几个关键点。

中美水准并驾齐驱

Arena 是一个由用户驱动的 AI 模型排行榜，它让用户把相同的提示词同时丢给不同的大语言模型，再根据大量用户的投票结果给模型排名。根据 Arena 的最新数据，美国和中国在 AI 模型性能上几乎并驾齐驱。2023 年初，OpenAI 凭借 ChatGPT 遥遥领先，但随着 Google 和 Anthropic 相继推出自己的模型，这一差距在 2024 年逐渐缩小。2025 年 2 月，中国的 DeepSeek 推出的 R1 一度追平了当时美国最顶尖的模型 ChatGPT。截至 2026 年 3 月，Anthropic 位居榜首，紧随其后的是 xAI、Google 和 OpenAI。DeepSeek 和阿里巴巴等中国模型也不遑多让。如今顶尖 AI 模型之间的差距已经被压缩到发丝之细，它们正在转而比拼成本、可靠性和实际可用性。

报告指出，美国和中国的 AI 优势各有不同。美国拥有更强的 AI 模型、更多的资本，以及估计约 5427 个数据中心，是任何其他国家的 10 倍以上；中国则在 AI 研究论文、专利和机器人领域领先。

随着竞争加剧，OpenAI、Anthropic 和 Google 等公司已经不再公开模型的训练代码、参数数量和数据集规模。“关于如何预测模型的行为，我们有很多东西还不清楚，”南加州大学计算机科学家、该报告的合著者约兰达·吉尔（Yolanda Gil）说。她表示，这种不透明让独立研究人员很难研究如何让 AI 模型变得更安全。

模型能力进步飞快

尽管有声音预测发展会进入平台期，AI 模型却一直在变得越来越强。按某些衡量标准，它们在旨在测试博士级科学、数学和语言理解能力的考试上已经达到或超过了人类专家的水平。针对 AI 模型的软件工程基准测试 SWE-bench Verified，顶尖成绩从 2024 年的约 60% 跃升到 2025 年的近 100%。2025 年，一个 AI 系统独立完成了天气预报。

“这项技术持续在进步，完全没有进入平台期，我被震惊到了。”吉尔说。

不过 AI 在其他很多领域仍然吃瘪。由于模型是通过处理海量文本和图像来学习，而不是通过亲历物理世界，它们表现出一种“参差不齐的智能”：机器人仍处于起步阶段，只能完成 12% 的家务任务；自动驾驶汽车发展稍快，Waymo 已经在美国五个城市运行，百度的 Apollo Go 也在中国各地接送乘客。AI 也在向法律、金融等专业领域扩展，但目前还没有哪个模型能主导这些领域

基准测试已经落后

这些进步数据需要保留余地。斯坦福报告指出，用来追踪 AI 进展的基准测试正被模型飞速突破，已经跟不上节奏。有的基准本身就做得不够严谨——一个流行的数学能力基准测试的错误率高达 42%。有的则容易被“作弊”：比如当模型直接在基准测试的数据上接受了训练，它可以学会拿高分而并没有真的变聪明。

由于 AI 实际使用的方式与它被测试的方式很少一致，基准测试的好成绩并不总能转化为真实世界的表现。而对于 AI 智能体和机器人这类复杂的交互式技术，相应的基准测试几乎还不存在。

AI 公司也越来越少公开自己的模型是如何训练的，独立测试得出的结论有时与公司自己报告的不一致。“很多公司不公开自己的模型在某些基准上的表现，尤其是那些涉及‘负责任 AI’的基准，”吉尔说，“你不公开某项基准的表现，这件事本身可能就说明了一些问题。”

AI 开始影响就业

进入主流视野不到三年，AI 的用户已经覆盖了全球超过一半的人口，普及速度超过了个人电脑和互联网。估计有 88% 的机构组织在使用 AI，大学生里每五人有四人用过 AI。

部署还处于早期，AI 对就业的影响很难量化。不过一些研究显示，AI 已经开始影响特定行业的年轻从业者。斯坦福经济学家 2025 年的一项研究显示，22 到 25 岁软件开发者的就业人数自 2022 年以来下降了近 20%。这一下降未必能全部归因于 AI，更广泛的宏观经济环境也可能是原因，但 AI 看起来确实在其中扮演了角色

雇主们表示招聘可能会继续收紧。麦肯锡 2025 年的一项调查显示，三分之一的组织预计 AI 将在未来一年内缩减他们的员工规模，尤其是服务与供应链运营和软件工程领域。报告引用的研究数据显示，AI 在客户服务领域提升了 14% 的生产力，在软件开发领域提升了 26%，但对那些更依赖判断力的任务，生产力收益并未显现。整体上看，AI 对经济的更大影响还需要更多时间才能看清楚。