撰文丨王聪
编辑丨王多鱼
排版丨水成文
人工智能(AI)对人类社会的影响从未如此显著。
日前,斯坦福大学以人为本人工智能研究院(HAI)发布了《2026 年人工智能指数报告》(The 2026 AI Index Report),这也是该机构连续第九年发布年度人工智能指数报告,该系列报告提供了当前所能获得的关于人工智能发展轨迹最全面、独立来源的图景,该系列报告也被誉为 AI 领域的“年度体检”,揭示了 AI 技术狂奔背后的真实图景——AI 能力正在全面爆发——AI 相关的科学论文自 2010 年以来激增了近 30 倍,同时,科学基础模型开始大量出现,许多研究人员开始依赖 AI 智能体来自主执行科学研究工作。然而,该报告也指出,我们的社会、治理和伦理框架还远远跟不上 AI 技术发展的脚步。
这份报告长达423 页,本文将总结概括其中的核心要点。
一、AI 能力加速:不再是“未来”,而是“现在”
报告显示,AI 的发展没有放缓,反而在加速普及。2025 年,超过 90% 的前沿 AI 模型来自企业,而非学术界。这些模型在博士级科学问题、多模态推理和数学竞赛中已达到或超越人类水平。在编程基准测试 SWE-bench 上,AI 性能在一年内从 60% 跃升至接近 100% 的人类基准。
更惊人的是普及速度:生成式人工智能(generative AI)在三年内达到 53% 的使用率,比个人电脑和互联网的普及速度更快。全球 88% 的组织已采用 AI,五分之四的大学生使用生成式 AI 工具。
二、中美 AI 竞赛:差距已基本消失
中国和美国在 AI 模型性能上的差距已基本消失。自 2025 年初以来,中美两国的 AI 模型多次交替领先。截至 2026 年 3 月,美国顶级 AI 模型仅领先 2.7%。不同之处在于,美国在顶级 AI 模型的数量和高质量专利上仍占优势,而中国在 AI 相关论文数量、引用量、专利总量和工业机器人安装量上领先。
三、AI 的“锯齿状前沿”:能拿奥数金牌,却看不懂钟表
AI 能力存在明显的“锯齿状前沿”——在某些复杂任务上表现出色,却在简单任务上失败。例如,谷歌的 Gemini Deep Think 模型能在国际数学奥林匹克竞赛中获得金牌,但顶级模型读取模拟时钟的正确率仅为 50.1%。AI 智能体(AI Agent)在真实计算机任务上的成功率从 12% 跃升至 66%,但在结构化基准测试中仍有约三分之一会失败。
四、机器人:实验室里的高手,家庭中的“菜鸟”
AI 机器人在受控实验室环境中表现出色,软件模拟的机械操作成功率已达89.4%。但在真实家庭环境中,AI 机器人仅能完成12%的任务,凸显了 AI 在物理世界中的巨大挑战。
五、负责任 AI 严重滞后:安全事故激增
随着 AI 能力提升,安全问题日益突出。几乎所有前沿 AI 开发商都会报告性能基准,但负责任 AI 的评估报告却零零散散。AI 安全事故从 2024 年的 233 起激增至 2025 年的 362 起。更棘手的是,研究发现,提升 AI 的安全性可能会降低其准确性,形成“此消彼长”的困境。
六、经济影响:生产力提升与就业冲击并存
AI 在客服和软件开发等领域带来了 14%-26% 的生产力提升,但在需要更多判断力的任务中效果较弱甚至为负。与此同时,AI 开始冲击就业市场:在软件开发领域,美国 22-25 岁年轻开发者的就业人数在 2024 年下降了近 20%,而年长开发者数量仍在增长。
七、环境代价:不容忽视的碳足迹和水资源消耗
AI 的环境影响随着能力提升而扩大。Grok 4 模型的训练排放估计达到 72816 吨二氧化碳当量。AI 数据中心的总功率容量已达 29.6 吉瓦,相当于纽约州的峰值用电需求。仅 GPT-4o 推理的年耗水量就可能超过 1200 万人的饮用水需求。
八、医疗与科学:希望与局限并存
AI 相关的研究论文逐年递增。2025 年,自然科学领域的 AI 相关论文多达 80150 篇,较 2024 年增长 26%。如今,AI 在科研成果中的占比因学科不同而有所差异,在 5.8% 至 8.8% 之间,而 2010 年这一比例还不到 1%。
前沿 AI 模型在平均表现上已超越人类化学家,但无法重现已发表的研究成果。在 ChemBench 上,表现最佳的 AI 模型在 2700 多个化学问题上的平均得分高于人类专家,但在基础任务上却表现不佳。在 ReplicationBench 上,前沿 AI 模型在天体物理学的论文级复制任务上的得分低于 20%。在 UnivEarth 上,AI 智能体回答地球观测问题的准确率为 33%,其代码失败率为 58%...2025 年,AI 系统首次实现了端到端的完整天气预报流;首篇完全由 AI 生成的论文在机器学习顶级会议的研讨会通过同行评审被接受,但经实验验证的 AI 发现仍寥寥无几。
2025 年,虚拟细胞模型成为了一个新的前沿领域,主要发布的模型包括来自 ARC 研究所的 Evo2、STATE 以及 DeepMind 的 AlphaGenome。这些模型旨在预测细胞对药物和基因扰动的反应,而无需进行湿实验室实验,不过目前的系统仍需要实验验证。
自动生成病历的 AI 工具在 2025 年得到广泛应用,这让医生报告书写时间减少高达 83%,职业倦怠显著降低。
2025 年,美国食品药品监督管理局(FDA)批准了 258 种人工智能医疗设备,其中大多数是通过无需开展新临床试验的途径获批的。绝大多数设备是通过设备改良途径进入市场的,这些途径依赖于现有的安全性和有效性证据,而非新的随机试验,仅有 2.4% 的设备的临床研究得到了随机试验数据的支持。
然而,严格的临床证据仍然有限——超过 500 项临床 AI 研究中,近一半依赖考试式问题而非真实患者数据,仅 5% 使用了真实临床数据。
九、教育滞后:学生在用,政策缺失
超过 80% 的美国高中生和大学生使用 AI 完成学业,但只有一半的初高中制定了 AI 政策,仅 6% 的教师认为这些政策清晰明确。学生们最常使用生成式 AI 进行研究、论文编辑和头脑风暴。在课堂之外,阿联酋、智利和南非的 AI 工程技能增长最快。
十、AI 主权:各国争夺技术主导权
AI 主权成为各国政策的核心主题,发展中国家首次大量出台国家 AI 战略。然而,模型生产仍集中在美国和中国。开源开发正在重新分配参与度,GitHub 上来自世界其他地区的贡献已超过欧洲,接近美国,推动了更多语言多样化的模型和基准测试。
十一、信任危机:专家与公众的巨大鸿沟
AI 专家与公众对技术未来的看法存在巨大分歧:73% 的专家预计 AI 对工作方式有积极影响,而公众只有 23% 持相同看法。在经济和医疗影响上也存在类似差距。全球对 AI 监管机构的信任度参差不齐:在接受调查的国家中,美国公众对本国政府监管 AI 的信任度最低,仅为 31%。全球范围内,欧盟在有效监管 AI 方面获得的信任度高于美国或中国。
总结:狂奔的 AI,跛脚的治理
这一报告描绘了一幅复杂图景:AI 技术正以前所未有的速度发展和普及,但我们的评估体系、安全框架、教育政策和环境管理都严重滞后。这种“能力与治理”的差距是当前 AI 时代最核心的挑战。
技术不会停下脚步,但人类的选择将决定 AI 最终走向何方——是让技术失控狂奔,还是建立与之匹配的智慧框架?这份报告提醒我们:在追逐 AI 能力的同时,必须同等重视其社会影响和伦理边界。
https://hai.stanford.edu/ai-index/2026-ai-index-report
热门跟贴