对 AI 产生一些幻灭感在所难免。
2022 年末,OpenAI 发布了名为 ChatGPT 的免费网页应用,它改变了整个行业的走向,也改变了若干个世界经济体的运行轨迹。数以百万计的人开始和电脑对话,电脑也首次开始有了回应。由此,我们开始对 AI 抱有更多的期待。
而后,科技公司为了保持领先而竞相冲刺,推出一款又一款各擅胜场的竞品。语音、图像、视频,每一次更新都是青出于蓝而胜于蓝。在这种不间断的比拼中,AI 公司把每一次产品上线都包装成重大突破,进一步强化了人们的普遍信念:这项技术会越来越好。
AI 的鼓吹者告诉我们,进步是指数级的。他们晒出图表,标出我们相较去年的模型走了多远:看,曲线一路向上。生成式 AI 似乎无所不能。
但 2025 年却成了清算的一年。
首先,顶级 AI 公司的掌舵者许下了他们兑现不了的承诺。他们告诉我们,生成式 AI 会取代白领劳动力,开启富足时代,带来科学发现,并帮助找到新的疾病疗法。至少在全球北方国家,蔓延于各个经济体的错失恐惧(FOMO)让 CEO 们撕掉旧剧本,急着加入这场行动。
也就是从那时起,光环开始褪色。尽管这项技术被包装成一种“万能多功能工具”,能够重塑陈旧的业务流程、削减成本,但今年发表的多项研究显示,企业并没有让那点“AI 仙尘”真正发挥魔力。
来自多个来源的调查与追踪数据,包括美国人口普查局与斯坦福大学,都发现企业采用 AI 工具的势头正在放缓。而即便尝试了这些工具,许多项目也长期卡在试点阶段。
如果整个经济体缺乏更广泛的投入与认可,人们很难看出,这些大型 AI 公司要如何收回它们在这场竞赛中已经投入的惊人资金。
与此同时,核心技术的迭代也不再像从前那样带来阶式跃迁。
最典型的例子莫过于 8 月 GPT-5 的翻车式发布。在极大程度上造就了本轮 AI 繁荣的 OpenAI,原本要推出其全新一代技术,为此,OpenAI 连续数月为 GPT-5 造势。CEO 山姆·奥特曼甚至夸口称它是“任何领域的博士级专家”。
还有一次,奥特曼不加评论地发了一张《星球大战》“死星”的图片,OpenAI 的铁粉把它解读为“终极力量”的象征,仿佛在说:马上就来。人们的期待被推到极高。
然而当它真的上线时,GPT-5 看起来像是与之前相同的东西又发布了一次。随后出现的,是自三年前 ChatGPT 初次登场以来最大的一次氛围转向。
AI 研究者、知名 YouTuber 扬尼克·基尔彻(Yannic Kilcher)在 GPT-5 发布两天后的视频中宣布:“突破边界的时代结束了。AGI 不会到来。我们看起来已经进入了大语言模型的三星 Galaxy 时代。”
很多人(包括我)都把它类比为手机。在差不多十年的时间里,智能手机是全球最令人兴奋的消费科技。如今,苹果或三星发布新机时几乎不会掀起太大波澜。铁粉会细看每一点小升级,但对大多数人来说,今年的 iPhone 看起来、用起来都和去年的差不多。
生成式 AI 也到了这个阶段吗?如果是,这算问题吗?当然,智能手机已经成为“新常态”。但它也确实改变了世界的运作方式。
需要承认的是,过去几年确实充满了许多激动人心的时刻。从视频生成模型质量的惊人飞跃,到所谓推理模型的解题能力,再到最新编程与数学模型在世界级竞赛中的胜出,这些都是真实发生的。
但这项非凡技术也才走红短短几年,从许多方面看仍处在实验阶段。它的成功背后也伴随着诸多重要的限制条件——也许我们需要重新调整预期。
这里要小心:从“热炒”到“反热炒”的摆钟也可能摆得过头。仅仅因为它被过度兜售就否定这项技术,是轻率的。
当 AI 没能回应期待时,人们的本能反应往往是说“进展撞了南墙”。但这误解了技术研究与创新的运行方式。进步从来都是偶发的,时快时慢。墙是可以翻过去的,也可以绕过去,甚至可以从下面挖过去。
不妨把视角从 GPT-5 的发布上挪开一点。在它之前的几个月里,OpenAI 刚刚密集推出了一系列相当出色的模型,包括 o1 和 o3(开创性的推理模型,让行业见识到一种全新范式),以及再次抬高视频生成门槛的 Sora 2。在我看来,这听起来不像是撞墙。
AI 的确很强。看看 Google DeepMind 的新图像生成模型 Nano Banana Pro,它能把一本书的一章内容变成信息图,还能做更多事情。它就这么免费地躺在你的手机里。
但你还是忍不住会想:当“惊艳感”消退后,还剩下什么?一年后或五年后,我们会如何看待这项技术?我们会认为它值得付出如此巨大的成本吗?无论是金钱成本,还是环境成本。
基于这些问题,下面是看待 2025 年末 AI 现状的四种方式。这是一场迫切需要的热潮纠偏的开始。
大语言模型不是全部
从某种意义上说,需要纠偏的是围绕大语言模型的热潮,而不是 AI 整体。如今已经很明显,LLM 并不是通往通用人工智能(AGI)的入口。AGI 是一种假想技术,有人坚称它终有一天能完成任何人类能完成的(认知)任务。
即便是像伊利亚·苏茨克维(Ilya Sutskever)这样的 AGI 传道者,如今也开始强调 LLM 的局限性。苏茨克维是 AI 初创公司 Safe Superintelligence 的首席科学家兼联合创始人,曾任 OpenAI 首席科学家兼联合创始人,并深度参与了 LLM 的创造。
苏茨克维在 11 月接受德瓦克什·帕特尔(Dwarkesh Patel)采访时说,LLM 很擅长学会做许多具体任务,但它们似乎并不会学到这些任务背后的原理。这就像学会解一千道不同的代数题,和学会解任何代数题之间的区别。
苏茨克维说:“我认为最根本的一点是,这些模型在泛化能力上不知为何明显比人类差得多。”
LLM 的语言能力太有说服力,因此人们很容易想象它无所不能。这项技术模仿人类写作与说话方式的能力令人惊叹。而我们天生就倾向于从某些行为方式中看见“智能”,不管它是否真的存在。换句话说,我们造出了具有人类行为的机器,于是很难不去相信它背后也有一个类人的心智。
这可以理解。LLM 进入主流生活也就短短几年。但在这段时间里,营销者利用了我们对技术真实能力还不够稳固的判断,不断抬高预期、加速炒作。随着我们与这项技术共处、对它理解加深,这些预期也该回到地面。
AI 不是解决一切问题的速效药
7 月,麻省理工学院的研究者发表了一项研究,成了 AI 末日论者最常引用的支柱论据。其最醒目的结论是:高达 95% 的企业在尝试使用 AI 后发现其“零价值”。
其他研究也呼应了这种总体判断。11 月,自由职业者在线市场平台 Upwork 的研究者发现,由 OpenAI、Google DeepMind 与 Anthropic 的顶级 LLM 驱动的智能体,单靠自己无法完成许多看似直接的职场任务。
这与奥特曼的预测相去甚远。他在 1 月的个人博客里写道:“我们相信,在 2025 年,我们可能会看到第一批 AI 智能体‘加入劳动力队伍’,并实质性改变公司的产出。”
但那项 MIT 研究中常被忽略的一点是,研究者对“成功”的衡量很狭窄。所谓 95% 的失败率,统计的是那些尝试部署定制 AI 系统,但在 6 个月后仍未能把它们扩展到试点阶段之外的公司。实验性技术的许多实验无法立刻见效,这并不令人意外。
这一数字也没有把员工在官方试点之外使用 LLM 的情况纳入。MIT 研究者发现,他们调查的公司中约有 90% 存在某种AI 影子经济,员工在用个人聊天机器人账号处理工作,但这种影子经济创造的价值并没有被测量。
而当 Upwork 研究观察的是智能体与懂行的人协作完成任务的表现时,成功率就大幅上升。结论似乎是,很多人正在自己摸索 AI 如何在工作中帮到他们。
这也符合 AI 研究者、意见领袖安德烈·卡帕希(Andrej Karpathy)的观察。他也是vibe coding一词的提出者。卡帕希指出,聊天机器人在很多事情上都比普通人更强,比如给法律建议、修复漏洞、做高中数学题,但它们并不比专家更强。
卡帕希认为,这可能解释了聊天机器人为何在个人消费者中如此受欢迎,它能帮非专业人士解决日常问题与任务。但它并没有颠覆经济,因为要颠覆经济,就必须在工作上超越熟练员工。
这种局面也许会改变。但至少目前,AI 还没有对就业产生鼓吹者宣称的那种影响,这并不值得惊讶。AI 不是速效药,也无法替代人类。但这盘棋还有很多空间。AI 如何被整合进日常工作流与业务流程中,仍在不断试验。
我们身处泡沫之中吗?
如果 AI 是泡沫,它更像 2008 年的次贷泡沫,还是更像 2000 年的互联网泡沫?两者差别很大。
次贷泡沫吞噬了经济体的一大部分,因为它破裂后留下的只有债务和被高估的房地产。互联网泡沫则淘汰了大量公司,冲击波扩散全球,但它留下了婴儿时期的互联网,留下了国际光缆网络,也留下了少数后来成长为科技巨头的创业公司,比如谷歌和亚马逊。
但也可能,我们正处在一种不同于上述两者的泡沫里。毕竟,LLM 目前还没有真正成熟的商业模式。我们还不知道所谓杀手级应用会是什么,甚至不知道它是否会出现。
许多经济学家也担忧,前所未有的大量资金被投入到基础设施中,用来建设算力并服务于预期需求。但如果需求最终并未出现呢?
再加上许多交易存在一种古怪的循环结构,比如英伟达付钱给 OpenAI,OpenAI 再把钱付回英伟达,如此往复。难怪每个人对未来的判断都不一样。
一些投资者仍然很淡定。11 月,在接受 Technology Business Programming Network 播客采访时,国际大型私募股权公司 Silver Lake Partners 的联合创始人格伦·哈钦斯(Glenn Hutchins)给出了几条“不必担心”的理由。他说:“这些数据中心中的每一个,几乎所有,都有一个具备偿付能力的对手方,并签约承诺接收它们为其定制建设的全部产出。”换句话说,这不是“先建起来再等客户上门”,客户已经被锁定了。
他还指出,这些具备偿付能力的对手方中最大的一家是微软。“微软拥有全球最好的信用评级,”哈钦斯说,“如果你和微软签约,让它接收你数据中心的产出,萨提亚(纳德拉)是靠得住的。”
许多 CEO 会回望互联网泡沫,试图从中吸取教训。可以这样理解:当年倒下的公司没有足够的资金撑到最后;而挺过崩盘的公司则迎来繁荣。
带着这个教训,今天的 AI 公司试图用资金把自己“买”过一段可能是泡沫也可能不是泡沫的时期。留在赛道上,不要掉队。即便如此,这仍是一场孤注一掷的豪赌。
但还有另一条教训。一些看起来像“边角料”的公司也可能很快变成独角兽。以 Synthesia 为例,它为企业提供虚拟人生成工具。风投机构 Air Street Capital 的联合创始人内森·贝奈奇(Nathan Benaich)承认,几年前他第一次听说这家公司时,正值深度伪造(deepfakes)引发恐慌的时期,他并不确定它的技术能用来做什么,也认为这不会有市场。
他说:“我们当时不知道谁会为对口型和声音克隆付费。结果发现,愿意付费的人很多。”Synthesia 现在大约拥有 5.5 万家企业客户,年收入约 1.5 亿美元。10 月,这家公司估值达到 40 亿美元。
ChatGPT 不是开始,也不会是结束
ChatGPT 是深度学习十年进步的结晶,而深度学习正是现代 AI 的底座。深度学习的种子早在 20 世纪 80 年代就已埋下,这个领域的整体历史至少可以追溯到 20 世纪 50 年代。如果以这样的背景衡量进步,生成式 AI 才刚刚起步。
与此同时,研究热度已经到了沸点。全世界范围内主流的 AI 会议收到的高质量投稿比以往任何时候都多。今年,一些会议组织方为了控制数量,甚至不得不拒绝那些评审已经通过的论文。(与此同时,arXiv 等预印本平台也被 AI 生成的“学术垃圾”淹没。)
苏茨克维在那次与德瓦克什的访谈中谈到 LLM 当前的瓶颈时说:“我们又回到了研究的时代。”这不是挫折,而是新事物的开端。
贝奈奇说:“总会有很多‘炒作怪兽’。”但他认为这也有好的一面:热潮会吸引实现真正进步所需要的资金与人才。
他说:“你知道,就在两三年前,构建这些模型的人基本还是研究宅,只是碰巧搞出了某种可用的东西。现在,几乎所有在技术上真正厉害的人都在做这件事。”
接下来我们往哪里走?
这种无休止的热潮,并不只是来自公司为其成本极高的新技术招揽生意。还有一大群人,无论在行业内还是行业外,都愿意相信一种承诺:机器可以阅读、写作、思考。这是一个持续了几十年的狂野梦想。
但热潮从来就不可持续,而这反倒是好事。我们现在有机会重置预期,看清这项技术的真实面貌,评估它真正的能力,理解它的缺陷,并花时间学习如何把它用在有价值而且有益的地方。
贝奈奇说:“我们仍在摸索,如何从这个维度高得离谱的信息与技能黑箱中,调动出我们想要的特定行为。”这场热潮纠偏早就该来了。但要知道,AI 不会消失。我们甚至还没有完全理解自己迄今为止造出了什么,更不用说接下来会发生什么。
https://www.technologyreview.com/2025/12/15/1129174/the-great-ai-hype-correction-of-2025/
热门跟贴