斯坦福大学重磅发布2026年AI指数报告：AI仍在狂奔；中美差距消失；虚拟细胞成新前沿|人工智能|斯坦福大学|智能体|机器人|美国|虚拟细胞

撰文丨王聪

编辑丨王多鱼

排版丨水成文

人工智能（AI）对人类社会的影响从未如此显著。

日前，斯坦福大学以人为本人工智能研究院（HAI）发布了《2026 年人工智能指数报告》（The 2026 AI Index Report），这也是该机构连续第九年发布年度人工智能指数报告，该系列报告提供了当前所能获得的关于人工智能发展轨迹最全面、独立来源的图景，该系列报告也被誉为 AI 领域的“年度体检”，揭示了 AI 技术狂奔背后的真实图景——AI 能力正在全面爆发——AI 相关的科学论文自 2010 年以来激增了近 30 倍，同时，科学基础模型开始大量出现，许多研究人员开始依赖 AI 智能体来自主执行科学研究工作。然而，该报告也指出，我们的社会、治理和伦理框架还远远跟不上 AI 技术发展的脚步。

这份报告长达423 页，本文将总结概括其中的核心要点。

一、AI 能力加速：不再是“未来”，而是“现在”

报告显示，AI 的发展没有放缓，反而在加速普及。2025 年，超过 90% 的前沿 AI 模型来自企业，而非学术界。这些模型在博士级科学问题、多模态推理和数学竞赛中已达到或超越人类水平。在编程基准测试 SWE-bench 上，AI 性能在一年内从 60% 跃升至接近 100% 的人类基准。

更惊人的是普及速度：生成式人工智能（generative AI）在三年内达到 53% 的使用率，比个人电脑和互联网的普及速度更快。全球 88% 的组织已采用 AI，五分之四的大学生使用生成式 AI 工具。

二、中美 AI 竞赛：差距已基本消失

中国和美国在 AI 模型性能上的差距已基本消失。自 2025 年初以来，中美两国的 AI 模型多次交替领先。截至 2026 年 3 月，美国顶级 AI 模型仅领先 2.7%。不同之处在于，美国在顶级 AI 模型的数量和高质量专利上仍占优势，而中国在 AI 相关论文数量、引用量、专利总量和工业机器人安装量上领先。

三、AI 的“锯齿状前沿”：能拿奥数金牌，却看不懂钟表

AI 能力存在明显的“锯齿状前沿”——在某些复杂任务上表现出色，却在简单任务上失败。例如，谷歌的 Gemini Deep Think 模型能在国际数学奥林匹克竞赛中获得金牌，但顶级模型读取模拟时钟的正确率仅为 50.1%。AI 智能体（AI Agent）在真实计算机任务上的成功率从 12% 跃升至 66%，但在结构化基准测试中仍有约三分之一会失败。

四、机器人：实验室里的高手，家庭中的“菜鸟”

AI 机器人在受控实验室环境中表现出色，软件模拟的机械操作成功率已达89.4%。但在真实家庭环境中，AI 机器人仅能完成12%的任务，凸显了 AI 在物理世界中的巨大挑战。

五、负责任 AI 严重滞后：安全事故激增

随着 AI 能力提升，安全问题日益突出。几乎所有前沿 AI 开发商都会报告性能基准，但负责任 AI 的评估报告却零零散散。AI 安全事故从 2024 年的 233 起激增至 2025 年的 362 起。更棘手的是，研究发现，提升 AI 的安全性可能会降低其准确性，形成“此消彼长”的困境。

六、经济影响：生产力提升与就业冲击并存

AI 在客服和软件开发等领域带来了 14%-26% 的生产力提升，但在需要更多判断力的任务中效果较弱甚至为负。与此同时，AI 开始冲击就业市场：在软件开发领域，美国 22-25 岁年轻开发者的就业人数在 2024 年下降了近 20%，而年长开发者数量仍在增长。

七、环境代价：不容忽视的碳足迹和水资源消耗

AI 的环境影响随着能力提升而扩大。Grok 4 模型的训练排放估计达到 72816 吨二氧化碳当量。AI 数据中心的总功率容量已达 29.6 吉瓦，相当于纽约州的峰值用电需求。仅 GPT-4o 推理的年耗水量就可能超过 1200 万人的饮用水需求。

八、医疗与科学：希望与局限并存

AI 相关的研究论文逐年递增。2025 年，自然科学领域的 AI 相关论文多达 80150 篇，较 2024 年增长 26%。如今，AI 在科研成果中的占比因学科不同而有所差异，在 5.8% 至 8.8% 之间，而 2010 年这一比例还不到 1%。

前沿 AI 模型在平均表现上已超越人类化学家，但无法重现已发表的研究成果。在 ChemBench 上，表现最佳的 AI 模型在 2700 多个化学问题上的平均得分高于人类专家，但在基础任务上却表现不佳。在 ReplicationBench 上，前沿 AI 模型在天体物理学的论文级复制任务上的得分低于 20%。在 UnivEarth 上，AI 智能体回答地球观测问题的准确率为 33%，其代码失败率为 58%...2025 年，AI 系统首次实现了端到端的完整天气预报流；首篇完全由 AI 生成的论文在机器学习顶级会议的研讨会通过同行评审被接受，但经实验验证的 AI 发现仍寥寥无几。

2025 年，虚拟细胞模型成为了一个新的前沿领域，主要发布的模型包括来自 ARC 研究所的 Evo2、STATE 以及 DeepMind 的 AlphaGenome。这些模型旨在预测细胞对药物和基因扰动的反应，而无需进行湿实验室实验，不过目前的系统仍需要实验验证。

自动生成病历的 AI 工具在 2025 年得到广泛应用，这让医生报告书写时间减少高达 83%，职业倦怠显著降低。

2025 年，美国食品药品监督管理局（FDA）批准了 258 种人工智能医疗设备，其中大多数是通过无需开展新临床试验的途径获批的。绝大多数设备是通过设备改良途径进入市场的，这些途径依赖于现有的安全性和有效性证据，而非新的随机试验，仅有 2.4% 的设备的临床研究得到了随机试验数据的支持。

然而，严格的临床证据仍然有限——超过 500 项临床 AI 研究中，近一半依赖考试式问题而非真实患者数据，仅 5% 使用了真实临床数据。

九、教育滞后：学生在用，政策缺失

超过 80% 的美国高中生和大学生使用 AI 完成学业，但只有一半的初高中制定了 AI 政策，仅 6% 的教师认为这些政策清晰明确。学生们最常使用生成式 AI 进行研究、论文编辑和头脑风暴。在课堂之外，阿联酋、智利和南非的 AI 工程技能增长最快。

十、AI 主权：各国争夺技术主导权

AI 主权成为各国政策的核心主题，发展中国家首次大量出台国家 AI 战略。然而，模型生产仍集中在美国和中国。开源开发正在重新分配参与度，GitHub 上来自世界其他地区的贡献已超过欧洲，接近美国，推动了更多语言多样化的模型和基准测试。

十一、信任危机：专家与公众的巨大鸿沟

AI 专家与公众对技术未来的看法存在巨大分歧：73% 的专家预计 AI 对工作方式有积极影响，而公众只有 23% 持相同看法。在经济和医疗影响上也存在类似差距。全球对 AI 监管机构的信任度参差不齐：在接受调查的国家中，美国公众对本国政府监管 AI 的信任度最低，仅为 31%。全球范围内，欧盟在有效监管 AI 方面获得的信任度高于美国或中国。