一份423页的报告,斯坦福HAI最新发布的《2026年AI指数报告》,把结论直接拍在桌上:中美AI模型性能差距已基本消除。

翻译成人话——你追我赶这么多年,终点线突然变成同一根了。

2025年,业界产出了超过90%的知名前沿模型。博士级科学问题、多模态推理、竞赛数学,这些曾经的"人类专属领地",模型们现在已经能踩线甚至超车。更夸张的是SWE-bench Verified,这个编码基准测试,模型性能一年内从60%飙到接近100%。

企业端采用率88%,大学生里五分之四已经在用生成式AI。数字看着热闹,但报告真正的狠话藏在细节里。

DeepSeek-R1今年2月短暂追平美国顶尖模型;到2026年3月,Anthropic虽仍领先,优势只剩2.7%。产出层面,美国握着更多顶级模型和高影响力专利,中国则在论文、引用、专利总数、工业机器人安装量上占上风。韩国更绝,人均AI专利数量全球第一——地方不大,密度惊人。

数据中心这块,美国5427个,数量是其他国家的10倍以上,电费账单也是。几乎每块领先AI芯片都出自台积电一家,全球AI硬件供应链被押在中国台湾省的一家代工厂上。台积电美国扩建项目2025年已运营,但"几乎"和"都"这两个字,读起来还是让人捏把汗。

能力的天花板与地板同样刺眼。Gemini Deep Think能在IMO拿金牌,读个指针式时钟准确率却只有50.1%——比抛硬币强点有限。OSWorld的真实任务测试,成功率从12%跳到66%,但仍有三分之一任务会失败。

头部开发者现在主动披露基准成绩,"负责任的AI"却像拼了一半的拼图,信息零散。AI事故从233起涨到362起。安全性和准确性之间,往往只能二选一。

投资数字更赤裸:美国2859亿美元,是中国124亿的23倍以上。1953家AI公司一年内拿到新融资,是第二名国家的10倍以上。但自2017年以来,这个数字已经跌掉89%,过去一年又少了80%。

生成式AI三年触达53%人口,比PC和互联网都快。但普及率与人均GDP高度挂钩——新加坡61%,阿联酋54%,美国28.3%排第24。哪怕工具免费,美国消费者年收益已达1720亿美元。

教育战场更微妙。80%以上的美国高中生和大学生用AI做学习任务,但只有一半中小学制定了AI政策,6%的教师觉得这些政策清晰。

技能增长最快的国家是阿联酋、智利、南非。美加AI博士数量涨了22%,但更多流向学术界而非工业界。发展中经济体在扩建国家级AI战略和超算投资。GitHub上"其他地区"的贡献量已超欧洲,逼近美国。

专家与公众的认知裂缝宽达50个百分点:73%的专家认为AI对工作影响正面,公众只有23%。欧盟在"能否有效监管AI"上的信任度,整体高于美国和中国。

报告还埋了五个冷观察:机器人家务任务完成率仅12%;AI先吃掉的是22-25岁年轻开发者岗位,近20%直接消失,年长开发者反而在增加;GPT-4o年用水量够1200万人喝;模型越大不一定越强;500多项临床研究中,真正用真实患者数据的只有5%。

这份报告由李飞飞联合创立的HAI发布,但她今年没在推特露面,指导委员会名单里也没有她。从2017年开始,这群人每年就干一件事:把AI的里子面子摊开给人看。

今年明显多了一层信号——AI不再是技术问题,而是全面进入深水区。报告首次估算生成式AI的经济价值,补充劳动力市场新证据,提出国家技术控制与竞争的分析框架,单独设立AI科学和AI医学板块。

有个细节值得玩味:美国只有一半中小学有AI政策,而教师觉得政策清晰的,只有6%。技术跑得比规则快,规则跑得比理解快——这大概是所有"深水区"的通病。