训练18个月GPT-5跳票！AI大模型的泡沫要破裂了？|gpt|openai|大模型|宇宙|数据量|跳票

12月上旬到中旬，OpenAI召开了为期12天的马拉松式发布会，每天都会公布一些新产品或新技术，带来了包括增强版o1大模型、文生视频大模型Sora Turbo、精简版推理模型o3-mini，以及高级语音模式增强等成果。

然而连续12天的发布会，却未能收获太高热度，即使是多款全面升级的大模型和文生视频大模型Sora Turbo，讨论度也十分有限，收到的吐槽可能比赞扬更多。

（图源：OpenAI）

其中的原因很简单，这些大模型功能确实更强了，可以帮助用户完成更多任务，但没有太多本质上的提升。广大用户期盼已久的GPT-5没有来，全新产品Sora Turbo也仅能生成最长20秒钟的1080P视频，未达到其在2024年初宣传的2分钟时长。

2023年3月GPT-4发布后，OpenAI就启动了代号为“Orion”（猎户座）的GPT-5研发项目。OpenAI主要投资者微软原计划2024年中期看到GPT-5，结果18个月时间过去了，GPT-5却依然难产。

面对迟迟未能发布的GPT-5，《华尔街日报》表示，OpenAI的AI项目费用极高，却不清楚何时能成功，甚至难以确定究竟能否成功。还有人质疑，问题或许不在OpenAI身上，而在于AI行业的发展已进入瓶颈。

耗资甚巨却不见成效，OpenAI遭遇大麻烦

2023年中期，OpenAI启动了针对Orion的首次实战测试项目，代号“Arrakis”。然而测试结果却显示，更大规模的AI大模型训练所需时间极长，会导致整体成本飙升。

OpenAI工作人员认为，Orion进展缓慢的原因在于没有足够多的高质量数据。早之前，OpenAI不断从互联网抓取数据，将新闻报道、社交媒体的帖子、科学论文等数据统统拿去训练大模型，甚至因此遭到加拿大Torstar Corp集团的起诉。

然而现有的互联网数据不够训练出GPT-5，因此OpenAI想到了一个方案——原创数据。OpenAI正在招聘人员，负责编写软件代码或解决数学问题，供Orion学习。显而易见，该方案势必导致Orion训练时间进一步延长，训练所需的成本也会大幅提高。

（图源：AI生成）

2024年初，感受到同行的压力后，OpenAI接连对Orion进行了几次小规模训练，并于5月到11月启动了第二次大规模训练，可数据量太少、数据多样化不足的问题依然存在。

OpenAI CEO山姆·奥特曼（Sam Altman）曾表示，训练GPT-4的费用大约是1亿美元，未来AI模型训练费用将达到10亿美元。而现在，GPT-5为期个月的训练已耗费了5亿美元，且未能取得理想的效果。

困扰OpenAI的不只是数据和成本，外部竞争同样关键。AI行业爆火后，对于人才的需求暴增，身为行业领头羊的OpenAI，自然成了其他企业争相挖墙脚的对象。OpenAI最初的11位联合创始人，已有9人离职，首席技术官Mira Murati、首席研究官Bob McGrew、研究副总裁Barret Zoph等高层也于2024年相继离职。

另一方面，来自对手的竞争迫使OpenAI开拓更多赛道，如打造精简版的GPT-4和文生视频大模型Sora等。知情人士称，这些新的项目导致OpenAI内部新品开发团队和Orion研究人员不得不争抢有限的资源。

对于OpenAI而言，唯一值得庆幸的是，不只是OpenAI遇到了数据、资金问题。曾在谷歌、OpenAI工作过的Ilya Sutskever直言，数据是AI的化石燃料，而这份燃料即将耗尽，但我们只有一个互联网，最大化数据的时代已经过去了。

正因如此，《华尔街日报》才会质疑GPT-5最终能否研发成功。但数据量的局限性，真的锁死AI行业的发展了吗？

赋予AI大模型思维能力，这是OpenAI的大饼？

尽管Orion项目耗费了大量资金，但拥有微软、苹果等互联网巨头支持的OpenAI，暂时不缺资金，所缺的唯有数据和算力。

面对数据量不足的问题，OpenAI研究人员想到了一个捷径——给予AI大模型更长的思考时间，去解决未经训练的困难问题。也就是说，OpenAI要凭借赋予大模型思维能力的方法，规避数据量不足的问题，令其可以像人类一样思考，去解决从未遇到类型的问题。

问题是，AI大模型真的具有思维能力吗？苹果研究员在《理解大语言模型中数学推理局限性》论文中提出了异议，苹果研究人员称，AI大模型只能套用现有模式，不具备真正的推理能力。苹果还举了一个奇异果测试案例，在该案例中，当描述语加了句废话“其中五个比平均较小”，GPT-4o mini便无法准确计算奇异果数量。

在之前的文章中，小雷曾实测了该案例，GPT-4o mini虽计算失败，但豆包、Kimi等多款大模型成功通过测试。另外，现在向AI大模型询问数学问题，得到的回答通常会带有解题思路，也能够说明大模型已不再是单纯套用训练过的模式，而是根据一定的逻辑去解题。

通过这种方式，训练AI大模型所需的数据量自然会大幅减少，未来甚至有可能实现仅输入数学公式就能解决相应问题。当然，目前AI大模型的能力还没有达到这种地步，高质量数据依然不可或缺。

高质量数据真的如Ilya Sutskever所言，被用完了吗？小雷认为，答案是否定的。准确地说，容易采集的数据被用完了。

训练AI大模型的数据主要有三大来源：第一，公开数据，如部分机构或组织公开的开源数据、互联网上的帖子、论文等等，尽管互联网数据也存在版权问题，但审查并不严格，而且方便抓取；第二，自有数据，如阿里巴巴、小米等企业开发AI大模型，完全可以使用平台用户积累的数据；第三，合作数据，AI公司与其他企业交换或购买到的数据。