「奥特曼最大的产品不是 GPT-5,而是期待本身」

01

GPT-5发布会前夜,网上已经掀起爆肝看GPT-5发布会直播的热潮,试图重回两年多以前GPT4发布时带来的轰动。

热闹的另一面,是DeepSeek的冷清。

深夜9点,DeepSeek所在的杭州拱墅区汇金国际写字楼已经没什么人,各个楼层的灯光都已熄灭,一层大厅空空荡荡。DeepSeek位于A座12层,只有一扇窗户透着灯光,里面有个别加班的人。

夜色渐浓,等了半小时,我们在楼下遇到一位刚下班的DeepSeek的员工。问及他对今晚OpenAI发布GPT5怎么看,团队会不会聚在一起熬夜看直播研究竞品。他说:“我们会关注北美那边AI的发展,向他们学习,但不会一起看直播。”

对海外大模型巨头的关切,是AI竞赛下的常态。发布会过后,“氛围”变了。我们并不知道研究员内部会如何看待这场发布会,他们还在测试体验中。但在公开可见的大众情绪里,人们似乎松了一口气。

有博主直言,人们意识到“至少到 2030 年,饭碗还在”——AGI 的降临似乎远没有宣传中那么迫在眉睫。这对于担忧工作被取代的普通人来说,无疑是个“好消息”。

要知道,早在两个月前,Altman就开始高调为GPT-5宣传了。6月,他发布个人播客《温和的奇点》称,“人类即将打造数字超级智能”——这表明他看到了GPT-5中令人难以置信的新功能。这篇文章阅读高达45万。

7月,Altman在接受采访中更是流露出GPT-5的不可思议,甚至暗示测试 GPT-5让他感到紧张,将其开发比作“曼哈顿计划”,不知道会将人类社会导向何处。

这些言辞都暗示,GPT-5将会掀起巨大的社会变革。当Altman把大众预期拉到很高,发布会无疑成为最后决定成败的关键。

但很显然,这场发布会没有太多惊喜,GPT-5并未成为人工智能史上的一个新路标,人们反而会觉得槽点多过亮点。

网友们一边看直播一边惊呼,“哦,AGI来了,你可以用GPT-5改变聊天的颜色”,有人直白地说,没有感受到AGI的脚步声,倒是觉得越来越像苹果了。

OpenAI对于前端交互页面的美观版面,也花费了数分钟来讲述。看多了这种交互设计页面的人对此感到震惊,这也值得渲染?

大家津津乐道的还是,GPT-5被奥特曼描述成比任何人类都聪明,却在发布会上出现了数学柱形图的低级错误。GPT-5在没有推理时的得分是52.8,竟没有O3的69.1的柱形图高,而且69.1和30.8的柱形图一样高。

有网友调侃道,莫非使用GPT-5做的?

博彩市场将GPT-5视为一个巨大的失败。发布会前后,人们对OpenAI的好感从73%下降到13%。大家通过与 OpenAI 下注,可以获得6倍的收益。这一对比还在下降。

和4年前GPT-3引发的行业变革相比,GPT-5显然没能刷新自己。

奥特曼最大的产品不是GPT-5,而是期待本身。他擅长在公众和资本市场的想象力中,让大家等待,然后上瘾。这种手法的副作用也显而易见:当现实没能达到故事里的高度,落差会变得格外刺眼。Siri曾经历过,谷歌 Glass 也经历过,如今轮到 GPT-5 站在这条钢索上。

在当天接受媒体的采访中,Sam Altman终于戳破提前数月在各个场合对GPT-5预期管理的泡沫,承认GPT-5尚未破解AGI。

02

过去五年里,OpenAI 确实一次次站在舞台中央,把全世界拉进了一场人工智能竞赛。这些“GPT时刻”,作为人工智能史上的方向标,创造了一次次的人工智能的狂欢。

2020 年,GPT-3第一次让世界意识实现AGI不再是个笑话。深度学习教父辛顿看见未来的可怖,不惜放弃此前引以为傲50年的深度学习研究,转做一名人工智能风险的宣传大使,频繁活跃在舆论中。

他提醒人们,人工智能会在智能上超越人类,我们人类应该尽快努力,想好应对策略。

GPT-3带来的冲击还在于1750亿参数,相比之前的大模型研究几乎是百倍的提升,这个规模在当时是一个难以想象的数字。开发者用它写诗、编故事、生成代码,让人第一次感受到“机器也能像人一样创作”。

GPT-3还掀起国内大模型创业浪潮。百川智能、面壁智能等公司于2022–2023年迅速入局,而智谱AI等企业虽更早成立,也在GPT-3的催化下加速大模型布局。

2023年3月 GPT-4 发布时,引起的轰动效应用“核弹级”来形容并不夸张。GPT-4将AI带入多模态世界,不仅能“看懂文字”,还能解读图片——用户上传一道奥数题的图片,它能一步步解答,上传网页截图,它能直接生成对 应 HTML代码。

彼时OpenAI的官网一度被挤到502报错,ChatGPT Plus 的支付系统直接宕机,候补名单几小时内涌入数万开发者。相关话题在微博热搜挂了三天,马斯克甚至在推特转发“AI可能毁灭人类”的联名信,呼吁暂停训练更强大的模型。

这在北美还掀起智能体应用热潮。“AI 助手”概念加速落地,企业开始将其融入客服、内容审核、编程辅助等环节。

等了两年半才更新的GPT-5,轰动效果明显不如前两个版本。但是和以往的模型相比,全方位的功能升级和跑分成绩确实大幅提升了。一位观看发布会直播的六小虎研究员说,看各项指标都还行,不过具体什么样,还是得测试后才知道。

最值得讲述的似乎是编程能力,发布会上花费在编程能力上的时间,占据了整场发布会的1/3。

在衡量Python编码能力的Swe-Bench上,GPT-5最高版本可执行真实世界软件开发任务的74.9%,高于O3的69.1%。在基准测试AP上,复合编程语言,gpt-5最高版本可达到88%,相较于O3分有了显著提高。

发布会现场,OpenAI还引用电信行业案例。工作人员介绍,两个月前,OpenAI发布新T2基准测试,是对模型调用工具并与用户协同解决具有挑战性问题的能力的测试。电信行业没有一个模型的得分超过49%,GPT-5得分是97%。

医疗模型领域表现也有进步。HealthBench 的测试得分是46.2%,发布会现场甚至还邀请到一位癌症患者,讲述自己使用GPT-5了解病情的细节,获得知识,减少看病时的无助感。

GPT‑5另一个升级是,将原来分散的模型统一到一个系统,包含多数情况适用的智能快速模型(gpt-5-main)和一个复杂问题的深度推理模型(gpt-5-thinking)。C端用户不用再担心在多个模型里横跳,系统会根据任务、用户意愿等自行研判,然后调用不同的模型完成。

尽管如此,GPT‑5也远未得到人们的预期。

OpenAI的首席科学家帕乔基,是发布会现场最后一位出席嘉宾。他几乎是肉眼可见的紧张,一度多次卡壳停顿,然后仓促结束。早前接受媒体采访时他说,真正的智能在于创造力,在于提出新颖的想法,以及将来自不同来源的想法联系起来。

不难看出,这次他对GPT‑5并没那么自信。

03

8月的这周,国外AI巨头推出的新品令人眩晕。

除了这次GPT-5的更新,8月6日,OpenAI、Google DeepMind、Anthropic在同一天发布新品,OpenAI 开源 GPT-OSS,性能达到o4-mini水平,且能在高端笔记本上运行,Anthropic 推出 Claude Opus 4.1,重点强化了Agent 任务执行、编码和推理能力,Google DeepMind 发布世界模型 Genie 3,一句话就能实时生成可交互世界。

这些产品都有各自的可圈可点之处,但都达不到年初“DeepSeek时刻”引起的轰动,人们迷恋那样的时刻,以至于在日后的无数瞬间都渴望它能再现。

这当中就包含对R2的期待。

早在2月份,路透社就曾爆料,DeepSeek内部正在加速推出R2模型,该模型原计划在5月初发布。实际上今年上半年,DeepSeek只对V3模型和R1进行了小版本升级,又发布了以V3为基座的DeepSeek-R1-0528。

截至目前,没有更多关于DeepSeek-R2的可靠消息。

GPT-5不及预期,似乎又让人想到了梁文锋。在过去的两个月,市场对DeepSeek的声音越来越复杂。这里面有国外模型迭代升级加速的集体焦虑,也有对DeepSeek超高的期待。

正如一上海一位人工智能专家所说,国内就是太过于关注这些了,一直做一些incremental(渐进式)的事情,第一个实现AGI的公司,会实现Intelligence explosion(智能爆炸),其他的公司永远不可能追上。

从始至终梁文锋都是一个专注实现AGI的人,对外界不那么在乎很符合他的风格,更不会如奥特曼一样高调营销。

面对 GPT-5 不如预期的表现,人们容易把落空的期待投射到DeepSeek-R2上。但DeepSeek有自己的产品迭代节奏,不打扰或许是最好的方式。

自今年1月DeepSeek爆火以来,位于拱墅区汇金国际A座12层的深度求索,也成了人们的打卡点,以至于不得不严加管制。外来人员无法进入电梯,即使混进电梯,DeepSeek所在的12层还设有一道门禁,只有员工刷卡或按指纹才可以进入,而其他楼层则没有增设这道门禁。

大厅里的保安说,经常有人过来问DeepSeek的事,没有人带,楼层是不让外来人进的,很多人会在楼外打卡。

楼外全家超市的老板说:“几乎每天都有人来问我DeepSeek,问我的都是想上楼又上不去的,有一次一个姑娘说她是全家的会员,特别喜欢全家的东西,让我带她去十二楼,可我哪有什么办法啊。”

晚上十点多,汇金国际写字楼已经很少有人出来,周围变得更加安静,唯独门口的环城北路依旧车流如织。抬头望望12楼,那扇透着灯光的窗户毅然嵌在那里。

作者|柳嘉

编辑|培培