GPT5不及预期，梁文锋仍有机会|agi|gpt|openai|人工智能|大模型|梁文锋

「奥特曼最大的产品不是 GPT-5，而是期待本身」

GPT-5发布会前夜，网上已经掀起爆肝看GPT-5发布会直播的热潮，试图重回两年多以前GPT4发布时带来的轰动。

热闹的另一面，是DeepSeek的冷清。

深夜9点，DeepSeek所在的杭州拱墅区汇金国际写字楼已经没什么人，各个楼层的灯光都已熄灭，一层大厅空空荡荡。DeepSeek位于A座12层，只有一扇窗户透着灯光，里面有个别加班的人。

夜色渐浓，等了半小时，我们在楼下遇到一位刚下班的DeepSeek的员工。问及他对今晚OpenAI发布GPT5怎么看，团队会不会聚在一起熬夜看直播研究竞品。他说：“我们会关注北美那边AI的发展，向他们学习，但不会一起看直播。”

对海外大模型巨头的关切，是AI竞赛下的常态。发布会过后，“氛围”变了。我们并不知道研究员内部会如何看待这场发布会，他们还在测试体验中。但在公开可见的大众情绪里，人们似乎松了一口气。

有博主直言，人们意识到“至少到 2030 年，饭碗还在”——AGI 的降临似乎远没有宣传中那么迫在眉睫。这对于担忧工作被取代的普通人来说，无疑是个“好消息”。

要知道，早在两个月前，Altman就开始高调为GPT-5宣传了。6月，他发布个人播客《温和的奇点》称，“人类即将打造数字超级智能”——这表明他看到了GPT-5中令人难以置信的新功能。这篇文章阅读高达45万。

7月，Altman在接受采访中更是流露出GPT-5的不可思议，甚至暗示测试 GPT-5让他感到紧张，将其开发比作“曼哈顿计划”，不知道会将人类社会导向何处。

这些言辞都暗示，GPT-5将会掀起巨大的社会变革。当Altman把大众预期拉到很高，发布会无疑成为最后决定成败的关键。

但很显然，这场发布会没有太多惊喜，GPT-5并未成为人工智能史上的一个新路标，人们反而会觉得槽点多过亮点。

网友们一边看直播一边惊呼，“哦，AGI来了，你可以用GPT-5改变聊天的颜色”，有人直白地说，没有感受到AGI的脚步声，倒是觉得越来越像苹果了。

OpenAI对于前端交互页面的美观版面，也花费了数分钟来讲述。看多了这种交互设计页面的人对此感到震惊，这也值得渲染？

大家津津乐道的还是，GPT-5被奥特曼描述成比任何人类都聪明，却在发布会上出现了数学柱形图的低级错误。GPT-5在没有推理时的得分是52.8，竟没有O3的69.1的柱形图高，而且69.1和30.8的柱形图一样高。

有网友调侃道，莫非使用GPT-5做的？

博彩市场将GPT-5视为一个巨大的失败。发布会前后，人们对OpenAI的好感从73%下降到13%。大家通过与 OpenAI 下注，可以获得6倍的收益。这一对比还在下降。

和4年前GPT-3引发的行业变革相比，GPT-5显然没能刷新自己。

奥特曼最大的产品不是GPT-5，而是期待本身。他擅长在公众和资本市场的想象力中，让大家等待，然后上瘾。这种手法的副作用也显而易见：当现实没能达到故事里的高度，落差会变得格外刺眼。Siri曾经历过，谷歌 Glass 也经历过，如今轮到 GPT-5 站在这条钢索上。

在当天接受媒体的采访中，Sam Altman终于戳破提前数月在各个场合对GPT-5预期管理的泡沫，承认GPT-5尚未破解AGI。

过去五年里，OpenAI 确实一次次站在舞台中央，把全世界拉进了一场人工智能竞赛。这些“GPT时刻”，作为人工智能史上的方向标，创造了一次次的人工智能的狂欢。

2020 年，GPT-3第一次让世界意识实现AGI不再是个笑话。深度学习教父辛顿看见未来的可怖，不惜放弃此前引以为傲50年的深度学习研究，转做一名人工智能风险的宣传大使，频繁活跃在舆论中。

他提醒人们，人工智能会在智能上超越人类，我们人类应该尽快努力，想好应对策略。

GPT-3带来的冲击还在于1750亿参数，相比之前的大模型研究几乎是百倍的提升，这个规模在当时是一个难以想象的数字。开发者用它写诗、编故事、生成代码，让人第一次感受到“机器也能像人一样创作”。

GPT-3还掀起国内大模型创业浪潮。百川智能、面壁智能等公司于2022–2023年迅速入局，而智谱AI等企业虽更早成立，也在GPT-3的催化下加速大模型布局。

2023年3月 GPT-4 发布时，引起的轰动效应用“核弹级”来形容并不夸张。GPT-4将AI带入多模态世界，不仅能“看懂文字”，还能解读图片——用户上传一道奥数题的图片，它能一步步解答，上传网页截图，它能直接生成对应 HTML代码。

彼时OpenAI的官网一度被挤到502报错，ChatGPT Plus 的支付系统直接宕机，候补名单几小时内涌入数万开发者。相关话题在微博热搜挂了三天，马斯克甚至在推特转发“AI可能毁灭人类”的联名信，呼吁暂停训练更强大的模型。

这在北美还掀起智能体应用热潮。“AI 助手”概念加速落地，企业开始将其融入客服、内容审核、编程辅助等环节。

等了两年半才更新的GPT-5，轰动效果明显不如前两个版本。但是和以往的模型相比，全方位的功能升级和跑分成绩确实大幅提升了。一位观看发布会直播的六小虎研究员说，看各项指标都还行，不过具体什么样，还是得测试后才知道。

最值得讲述的似乎是编程能力，发布会上花费在编程能力上的时间，占据了整场发布会的1/3。

在衡量Python编码能力的Swe-Bench上，GPT-5最高版本可执行真实世界软件开发任务的74.9%，高于O3的69.1%。在基准测试AP上，复合编程语言，gpt-5最高版本可达到88%，相较于O3分有了显著提高。

发布会现场，OpenAI还引用电信行业案例。工作人员介绍，两个月前，OpenAI发布新T2基准测试，是对模型调用工具并与用户协同解决具有挑战性问题的能力的测试。电信行业没有一个模型的得分超过49%，GPT-5得分是97%。

医疗模型领域表现也有进步。HealthBench 的测试得分是46.2%，发布会现场甚至还邀请到一位癌症患者，讲述自己使用GPT-5了解病情的细节，获得知识，减少看病时的无助感。

GPT‑5另一个升级是，将原来分散的模型统一到一个系统，包含多数情况适用的智能快速模型（gpt-5-main）和一个复杂问题的深度推理模型（gpt-5-thinking）。C端用户不用再担心在多个模型里横跳，系统会根据任务、用户意愿等自行研判，然后调用不同的模型完成。

尽管如此，GPT‑5也远未得到人们的预期。

OpenAI的首席科学家帕乔基，是发布会现场最后一位出席嘉宾。他几乎是肉眼可见的紧张，一度多次卡壳停顿，然后仓促结束。早前接受媒体采访时他说，真正的智能在于创造力，在于提出新颖的想法，以及将来自不同来源的想法联系起来。

不难看出，这次他对GPT‑5并没那么自信。

8月的这周，国外AI巨头推出的新品令人眩晕。

除了这次GPT-5的更新，8月6日，OpenAI、Google DeepMind、Anthropic在同一天发布新品，OpenAI 开源 GPT-OSS，性能达到o4-mini水平，且能在高端笔记本上运行，Anthropic 推出 Claude Opus 4.1，重点强化了Agent 任务执行、编码和推理能力，Google DeepMind 发布世界模型 Genie 3，一句话就能实时生成可交互世界。

这些产品都有各自的可圈可点之处，但都达不到年初“DeepSeek时刻”引起的轰动，人们迷恋那样的时刻，以至于在日后的无数瞬间都渴望它能再现。

这当中就包含对R2的期待。

早在2月份，路透社就曾爆料，DeepSeek内部正在加速推出R2模型，该模型原计划在5月初发布。实际上今年上半年，DeepSeek只对V3模型和R1进行了小版本升级，又发布了以V3为基座的DeepSeek-R1-0528。

截至目前，没有更多关于DeepSeek-R2的可靠消息。

GPT-5不及预期，似乎又让人想到了梁文锋。在过去的两个月，市场对DeepSeek的声音越来越复杂。这里面有国外模型迭代升级加速的集体焦虑，也有对DeepSeek超高的期待。

正如一上海一位人工智能专家所说，国内就是太过于关注这些了，一直做一些incremental（渐进式）的事情，第一个实现AGI的公司，会实现Intelligence explosion（智能爆炸），其他的公司永远不可能追上。

从始至终梁文锋都是一个专注实现AGI的人，对外界不那么在乎很符合他的风格，更不会如奥特曼一样高调营销。

面对 GPT-5 不如预期的表现，人们容易把落空的期待投射到DeepSeek-R2上。但DeepSeek有自己的产品迭代节奏，不打扰或许是最好的方式。

自今年1月DeepSeek爆火以来，位于拱墅区汇金国际A座12层的深度求索，也成了人们的打卡点，以至于不得不严加管制。外来人员无法进入电梯，即使混进电梯，DeepSeek所在的12层还设有一道门禁，只有员工刷卡或按指纹才可以进入，而其他楼层则没有增设这道门禁。

大厅里的保安说，经常有人过来问DeepSeek的事，没有人带，楼层是不让外来人进的，很多人会在楼外打卡。

楼外全家超市的老板说：“几乎每天都有人来问我DeepSeek，问我的都是想上楼又上不去的，有一次一个姑娘说她是全家的会员，特别喜欢全家的东西，让我带她去十二楼，可我哪有什么办法啊。”

晚上十点多，汇金国际写字楼已经很少有人出来，周围变得更加安静，唯独门口的环城北路依旧车流如织。抬头望望12楼，那扇透着灯光的窗户毅然嵌在那里。