2026年4月13日,斯坦福大学以人为本人工智能研究所(HAI)发布了第九版《AI指数年度报告》(《AI Index Report 2026》)。这份报告已成为全球追踪AI发展态势的标杆性文献,被各国政府、研究机构和媒体广泛引用。今年的核心发现可以用一句话概括:AI扩张的速度,已超过了围绕它建立的所有系统(治理框架、评估方法、教育体系和数据基础设施)的适应能力,无一跟上了技术本身的步伐。

报告共设九章,研发格局(Research and Development)、技术性能(Technical Performance)、负责任AI(Responsible AI)、经济(Economy)、科学(Science)、医学(Medicine)、教育(Education)、政策与治理(Policy and Governance)以及公众舆论(Public Opinion)。其中,科学和医学首次作为独立章节出现,反映出AI正从计算机科学的“自留地”向更广泛的知识生产领域深度渗透。

一、研发格局:产业主导、透明度下降与地缘版图重构

报告显示,2025年超过90%的重要AI模型由产业界生产,但最具能力的模型恰恰也是最不透明的——OpenAI、Anthropic和Google等头部实验室已不再公开训练代码、参数规模和数据集大小。这是一个值得警惕的趋势,当前沿模型的能力评估越来越依赖开发者自我报告,而独立验证的空间却在缩小。

在地缘分布上,中国在论文数量、引用份额和专利授权数量上均居全球首位,而美国在高影响力专利和重要模型产出上仍保持优势(2025年美国产出50个重要模型,中国30个)。韩国以人均AI专利数领先全球。全球AI算力以每年3.3倍的速度增长,但几乎所有前沿AI芯片都由台湾一家代工厂(台积电)制造,供应链的脆弱性不言自明。

另一个引人注目的数据是,AI领域的男女比例自2010年以来在任何国家都没有出现实质性改善。技术在狂飙突进,但人才结构中的深层问题纹丝不动。

二、技术性能:能力趋同、基准饱和与“参差不齐的前沿”

报告用“参差不齐的前沿”(jagged frontier)这一概念刻画了当前AI能力的矛盾状态:Gemini Deep Think在国际数学奥林匹克竞赛中斩获金牌,但顶级模型读模拟时钟的准确率仅为50.1%。AI智能体在OSWorld测试中从12%跃升至约66%的任务成功率,但在结构化基准测试中仍有约三分之一的失败率。

中美模型性能差距已实质性缩小。2025年2月,DeepSeek-R1一度与美国顶级模型持平;截至2026年3月,美国顶级模型仅领先2.7%。顶部模型之间的Elo评分差距压缩至25分以内,竞争重心正从“谁更强”转向成本、可靠性和特定领域表现。

更令人不安的是基准测试本身正在失效。原本设计为“持续数年”的高难度评估在几个月内即被饱和,广泛使用的评估集错误率高达42%,排行榜排名可能部分反映的是对平台的适应而非真实能力。用什么尺子来量AI的进步,本身成了一个亟待回答的问题。

三、负责任AI:形式化进展与实质性困境并存

2025年AI事件数据库记录了362起事件,较上年的233起大幅增长。26个主流模型的幻觉率从22%到94%不等。在一项新的准确性基准测试中,当虚假陈述被包装为“用户的信念”而非“他人的信念”时,模型表现急剧崩塌——AI尚不能区分知识与信念。

企业层面,负责任AI的制度化建设在推进。AI专项治理岗位增长17%,没有任何负责任AI政策的企业从24%降至11%。但知识缺口(59%)、预算约束(48%)和监管不确定性(41%)仍是主要障碍。一个更深层的发现是,安全、公平与隐私等负责任AI的不同维度之间存在内在张力,提升一个维度的训练技术往往会恶化其他维度,而这些权衡取舍尚未被充分理解。

报告还指出,AI在英语环境下表现最佳,这一差距比全球基准所显示的更大。在方言层面,差距进一步拉大。这意味着AI的能力红利在语言和文化维度上是不均匀分布的。

四、经济:史无前例的扩张速度与分配隐忧

生成式AI在三年内达到53%的人口级采用率,比个人电脑和互联网都快。组织采用率升至88%。全球企业AI投资在2025年翻倍,美国私人AI投资达2859亿美元,是中国的23倍。但报告同时提醒,仅看私人投资数据会低估中国的AI总支出,因为中国政府引导基金在2000至2023年间已向AI企业投入约1840亿美元。

生产率提升集中在结构化、可量化的工作中。客服14%—15%,软件开发26%,营销产出50%。但需要深层推理的任务收益较小,且新近证据显示,过度依赖AI可能带来长期的“学习惩罚”,减缓技能发展。

最令人关注的是劳动力市场信号。在AI生产率增益最明显的软件开发领域,22至25岁的美国开发者就业人数较2024年下降了近20%,而年长开发者的数量仍在增长。报告将此称为“煤矿中的金丝雀”。AI对初级岗位的替代效应可能已经开始显现,尽管整体就业数据尚未出现大规模裁员的证据。

五、科学与医学:从辅助工具到全流程替代

科学和医学首次独立成章,标志着AI在这两个领域的角色发生了质变。在科学研究中,AI已从加速单个研究步骤转向尝试替代整个工作流程。在医学领域,临床AI工具从试点项目转向更广泛的部署,环境AI医疗记录系统(ambient AI scribes)正在多个医疗系统中规模化应用。这一转变的意义在于,AI不再仅仅是科学家和医生手中的“好用工具”,而开始重塑知识生产和临床决策的基本组织方式。这既是机遇,也对现有的同行评议、临床验证和伦理审查体系提出了根本性挑战。

六、教育:需求爆发与制度滞后

超过80%的美国高中生和大学生已在学业中使用AI,但仅有一半的中学制定了AI使用政策,仅6%的教师认为这些政策是清晰的。大学计算机科学入学人数在2024至2025年间下降了11%,但AI相关研究生项目仍在增长。中国和阿联酋已从2025—26学年起强制推行AI教育。

值得注意的是,人们正在正规教育体系之外大规模习得AI技能。AI素养技能的增长速度在多数国家超过了工程类AI技能,阿联酋、智利和南非则是例外。这提示我们,AI教育的供给与需求之间存在系统性错位。

七、政策治理:分化的全球图景与“AI主权”的崛起

各国在2025年对AI采取了行动,但方向截然不同。欧盟AI法案首批禁令生效,美国则转向去监管,日本、韩国和意大利各自通过了国家AI立法。超过半数新采纳的国家AI战略来自发展中国家。

“AI主权”成为国家AI政策的核心组织原则。报告从基础设施、数据、模型、应用和人才五个维度构建了AI主权分析框架。2018至2025年间,欧洲和中亚的国家级AI超算集群从3个增至44个,而南亚、拉美和中东北非分别仅达到2、3和8个。数据本地化措施方面,东亚太平洋地区采纳了77项,北美仅3项。AI主权的愿望是普遍的,但实现它的能力是高度不均衡的。

八、公众舆论:乐观与焦虑的共生

全球范围内,认为AI产品利大于弊的受访者比例从2024年的55%上升至2025年的59%,但表示AI令其紧张的比例同步升至52%。东南亚国家最为乐观,印度的AI焦虑增幅最大。

专家与公众之间的认知鸿沟尤为突出:73%的AI专家认为AI将对工作产生积极影响,公众中这一比例仅23%,差距达50个百分点。在经济、教育和医疗领域均出现类似分歧。但在选举和人际关系方面,专家与公众罕见地达成了共识,AI会带来负面影响。在全球对政府监管AI的信任度调查中,美国在受调查国家中排名最末,仅31%。

结 语

中国在AI研究的量化指标上已居全球前列。论文数量、引用份额、专利授权、工业机器人安装量均领先,在高被引论文中的份额从2021年的33篇增至2024年的41篇,DeepSeek-R1等模型在技术性能上已与美国顶级模型交替领先。但报告同时揭示了一个更复杂的图景,中国的私人AI投资仅为美国的二十三分之一,前沿模型的生产仍高度集中于中美两国,全球AI芯片制造依赖台湾单一代工厂,而AI人才流向美国的趋势虽在急剧下降(自2017年降幅达89%),人才的全球竞争格局仍远未尘埃落定。

报告中几个细节格外值得回味。1.AI在非英语环境中的性能衰减显著,方言层面尤甚。这对中文及其方言多样性意味着什么,需要认真对待。2.生产率提升集中于结构化任务、年轻初级岗位首当其冲的就业替代效应,以及过度依赖AI可能导致的“技能退化”风险,这些发现对中国庞大的年轻劳动力群体和快速推进的AI应用浪潮具有直接的参照意义。3.AI主权正在成为全球政策的核心叙事,而主权的实现不仅取决于算力和模型,还取决于数据治理、人才储备和应用生态的综合配置。报告中那张关于各国AI超算集群数量的不均衡分布图,实际上画出了未来全球AI权力版图的底色。

或许最值得深思的是报告贯穿始终的那个判断:技术能力的增长速度已经超过了人类度量它、理解它、治理它的能力。这不仅是一个技术问题,更是一个文明性的挑战。对于正在全力推进AI发展的中国而言,这份来自斯坦福的年度“体检报告”提醒我们,跑得快固然重要,但知道自己跑在哪里、跑向何方,同样不可或缺。

冯岩,上海市研发公共服务平台管理中心(上海市科技人才发展中心) 人才事业部。文章观点不代表主办机构立场。

◆ ◆ ◆

编辑邮箱:sciencepie@126.com