GPT - 5 卡壳了。。。|altman|gpt|openai|orion|黄仁勋

OpenAI 代号为 Orion 的新 AI 项目遇到了一个又一个问题。

OpenAI 新的 AI 项目落后计划进度，且耗资巨大。目前还不清楚该项目何时或是否完工。全球可能没有足够的数据让它足够智能化。

该项目的官方名称为 GPT-5，代号 Orion，已经研发了 18 个多月，旨在成为 ChatGPT 背后技术方面的重大进步。

据知情人士透露，OpenAI 最亲密的合作伙伴、最大的投资者微软曾期望在 2024 年年中看到这款新模型。

OpenAI 已进行了至少两次大规模的训练排练（training run），每次需要几个月的时间来处理大量数据，目的是让 Orion 更智能。熟悉该项目的人士称，每次都出现新的问题，软件达不到研究人员所希望的结果。

他们表示，在最好的情况下，Orion 的性能胜过 OpenAI 目前的产品，但还不够先进，不足以证明维持新模型运行所需的巨大成本是合理的。

据估计，为期 6 个月的训练，单单计算成本就可能要花费约 5 亿美元。

两年前 OpenAI 及其首席执行官 Sam Altman 推出 ChatGPT，在硅谷掀起了轩然大波。

AI 有望不断展现出巨大的进步，并渗入到人们生活的几乎方方面面。

分析人士预测，未来几年，科技巨头们可能会在 AI 项目上投入 1 万亿美元。

OpenAI CEO Sam Altman 预测，GPT-5 将是一次“重大飞跃”。

OpenAI 尤其被寄予了厚望，这家公司现处于 AI 热潮的暴风眼。

去年 10 月，投资者对 OpenAI 的估值达到 1570 亿美元，这在很大程度上基于 Altman 的预测，即 GPT-5 对各种学科和任务而言将是一次“重大飞跃”。

按设想，GPT-5 有望开启新的科学发现，并完成日常的人类任务，比如预订约会或航班。

研究人员希望它比今天的 AI 少犯错误，或者至少承认怀疑——这对目前的模型来说是挑战，目前的模型会生成明显的错误，即所谓的幻觉。

OpenAI 的一位前高管说，虽然 GPT-4 表现得像聪明的高中生，但最终的 GPT-5 在处理某些任务时实际上像是博士。

今年早些时候，Altman 在斯坦福大学的一次演讲中告诉学生们，OpenAI 可以“相当明确地表示”GPT-5 的智能化程度将比目前的模型高得多。

没有固定的标准来确定模型何时变得足够智能、可以被称为 GPT-5。

OpenAI 可以在数学和编程等领域测试其 LLM。模型是否足够智能化、可以被称为 GPT-5，主要取决于公司高管的直觉，或者像许多技术专家所说的“感觉”。

到目前为止，感觉并不好。

去年 11 月 Altman 表示，这家初创公司不会在 2024 年发布任何名为 GPT-5 的产品。

训练日

从 GPT-4 于 2023 年 3 月横空出世的那天起，OpenAI 一直在潜心研发 GPT-5。

长期从事 AI 研究的人员表示，开发 LLM 之类的系统既是科学又是艺术。全球最负盛名的 AI 科学家以他们对如何获得更好结果的直觉而闻名。

决定 AI 如何处理信息和做出决策的设置。

模型在训练排练过程中加以测试，在这段持续的时间里，可以为模型馈入数万亿个名为 token 的单词片段。大型训练排练在一个配备成千上万块昂贵的计算机芯片（通常来自英伟达）的数据中心可能耗时几个月才完成。

在训练排练过程中，研究人员在电脑前趴上几周甚至几个月，竭力将全世界的大部分知识馈入到 AI 系统中，这个系统使用边远数据中心的一些最昂贵的硬件。

Altman 表示，训练 GPT-4 花费超过 1 亿美元。未来的 AI 模型预计将超过 10 亿美元。一次失败的训练排练好比太空火箭在发射后不久在空中爆炸。

研究人员试图通过在较小的范围内进行实验（先进行试运行），尽量降低这种失败的可能性。

从一开始，GPT-5 的计划就存在诸多问题。

2023 年年中，OpenAI 开始了一次训练排练，同时用来测试 Orion 的新设计。但这个过程很缓慢，表明更大规模的训练排练可能需要很长时间，这反过来会使成本高得惊人。这个名为 Arrakis 的项目的结果表明，开发 GPT-5 不会如希望的那样顺利。

OpenAI 的研究人员于是决定做一些技术调整来增强 Orion。他们还得出结论，需要更多样化、更高质量的数据。他们认为，公共互联网没有足够的此类数据。

英伟达 CEO 黄仁勋，英伟达生产训练 AI 所需的抢手的昂贵芯片。

一般来说，AI 模型获取的数据越多，功能会变得越强。对于 LLM 来说，这些数据主要来自书籍、学术出版物及其他可靠的来源。这些材料帮助 LLM 更清楚地表达自己，并处理各种各样的任务。

OpenAI 对于之前的模型使用了从互联网上抓取的数据：新闻文章、社交媒体帖子和科学论文。

为了让 Orion 更智能，OpenAI 需要让它更庞大。这意味着它需要更多的数据，但目前没有足够的数据。

DatologyAI 是一家开发改善数据选择的工具的初创公司，首席执行官 Ari Morcos 表示：“找到高质量的数据变得非常烧钱，而且很费劲。”

Morcos 正在用更少但质量高得多的数据构建模型，他认为这种方法将使今天的 AI 系统比 OpenAI 等各大AI公司所采用的策略更有效。

OpenAI 的解决办法是从零开始创建数据。

它正在雇人编写新的软件代码或解决数学问题，供 Orion 学习。这些员工（其中一些是软件工程师和数学家）还与 Orion 分享他们对工作的解释。

OpenAI 的办公室，员工们在可能持续数周的 AI 训练排练期间趴在电脑前。

许多研究人员认为，作为软件语言的代码可以帮助 LLM 解决它们尚未见过的问题。

让人们解释他们的想法可以加大新创建数据的价值。LLM 需要吸收更多的语言，这也指明了模型在未来会如何解决类似问题。

Turing 是一家与 OpenAI 和 Meta 等大公司合作的 AI 基础设施公司，首席执行官兼联合创始人 Jonathan Siddharth 表示：“我们正在将人类智能从人类大脑迁移到机器大脑中。”

Turing 的高管说，在 AI 训练中，软件工程师可能会被要求编写一个程序，有效地解决一个复杂的逻辑问题。数学家可能必须计算出由一百万个篮球搭成的金字塔的最大高度。这些问题的答案——以及更重要的是如何获得答案——随后被整合到 AI 训练材料中。

OpenAI 与通晓理论物理学等学科的专家合作，解释如何解决他们领域中一些最棘手的问题。这也可以帮助 Orion 变得更智能化。

这个过程非常缓慢。GPT-4 使用估计 13 万亿个 token 进行了训练。1000 个人每天写 5000 个单词，需要几个月的时间才能生成 10 亿个 token。

OpenAI 还开始开发所谓的合成数据（即 AI 创建的数据），以帮助训练 Orion。研究表明，AI 为 AI 创建数据的反馈循环常常会导致故障或导致荒谬的答案。

知情人士称，OpenAI 的科学家们认为，如果他们使用该公司另一款名为 o1 的 AI 模型生成的数据，可以避免这类问题。

OpenAI 面临的任务本来就很艰难，公司内部动荡加上竞争对手不断挖走其顶尖研究人员（有时甚至开出数百万美元的高薪），更显得困难重重。

去年 Altman 突然被 OpenAI 董事会解雇，一些研究人员怀疑公司是否继续经营下去。Altman 很快恢复了首席执行官的职位，并着手整改 OpenAI 的治理结构。

今年已有 20 多名重要的高管、研究人员和资深员工离开了 OpenAI，包括联合创始人兼首席科学家 Ilya Sutskever 和首席技术官 Mira Murati。

周四，广受尊敬的研究人员 Alec Radford 宣布离职，他在 OpenAI 工作了约八年，是 OpenAI 多篇科学论文的主要作者。

重装上阵

到 2024 年初，高管们开始感受到了压力。

GPT-4 已问世一年，竞争对手开始迎头赶上。

Anthropic 的新 LLM 被业内许多人评为比 GPT-4 更胜一筹。

几个月过后，谷歌推出了今年最爆款的新 AI 应用：NotebookLM。

随着 Orion 陷入停滞，OpenAI 开始开发其他项目和应用，其中包括精简版的 GPT-4 和可以制作 AI 生成的视频的产品 Sora。

谷歌是与 OpenAI 争夺 AI 领域霸主地位的劲敌之一。

据知情人士透露，这导致开发新产品的团队与 Orion 研究人员争夺有限的计算资源。

AI 实验室之间的竞争变得异常激烈，以至于几大科技公司发表的有关最新发现或突破的论文比科学领域的典型论文要少。

两年前，随着资金涌入市场，科技公司开始将这项研究的成果视为需要保护的商业机密。一些研究人员非常重视这方面，他们不会在飞机上、咖啡馆或任何有人从背后偷窥其工作的地方办公。

这种遮遮掩掩的态度让许多资深的 AI 研究人员感到沮丧，包括 Meta 首席 AI 科学家 Yann LeCun。

LeCun 表示，再也不应将 OpenAI 和 Anthropic 的工作视为研究，而是“先进产品开发”。

LeCun 在最近一场 OpenAI 过去很少露面的 AI 会议上说：“如果你出于商业目的来做，那不叫研究。如果你遮遮掩掩地做，那也不叫研究。”

2024 年初，OpenAI 准备再试一下 Orion，这次准备了更好的数据。研究人员在今年的头几个月进行了几次小规模的训练排练，以树立信心。

到 5 月，OpenAI 的研究人员认定已准备好为 Orion 进行另一次大规模的训练排练，他们预计将持续到 11 月。

训练开始后，研究人员发现数据有个问题：数据不像原来想象的那么多样化，这可能会限制Orion能学到的东西。

这个问题在小规模的训练中并不明显，直到大规模的训练排练已经开始后才变得显眼。OpenAI 花费了大量的时间和金钱推倒重来。

相反，研究人员在训练过程中设法寻找更大范围的数据以馈送给模型。目前尚不清楚这个策略是否卓有成效。

Orion 的问题在 OpenAI 的一些人看来表明，推动 OpenAI 早期成功的“越多越好”策略正在失去效果。

OpenAI 不是唯一一家担心技术进步撞墙的公司。

整个行业正在激烈争论 AI 方面的进步是否开始遇到了瓶颈。

Ilya Sutskever 今年辞去了 OpenAI 首席科学家的职务。

Sutskever 最近与他人联合创立了一家名为 Safe Superintelligence（SSI）的新 AI 公司，他在最近的一次 AI 会议上宣称，依赖海量数据的时代已结束。他对一群研究人员、政策专家和科学家说：“数据并未增多，因为我们只有一个互联网。你甚至可以说，数据就是AI的化石燃料。”

而这种燃料已开始耗尽。

推理

Orion 上遇到的困难让 OpenAI 的研究人员求助一种让 LLM 更智能化的新方法：推理。

研究人员表示，花很长时间的“思考”让 LLM 可以解决它们没有接受过相应针对性训练的难题。

在幕后，OpenAI 的 o1 为每个问题提供了几个答案，并进行分析以找出最佳答案。它可以执行更复杂的任务，比如撰写商业计划或创建填字游戏，同时解释其推理，这帮助该模型从每个答案中学到一点知识。

苹果公司的研究人员最近发表了一篇论文，认为推理模型（包括 o1 版本）极可能模仿它们在训练中看到的数据，而不是实际解决新问题。

苹果的研究人员表示，如果变换问题、加入不相关的细节，比如调整有关猕猴桃的数学问题，表明一些水果比其他水果要小，他们发现了“性能出现灾难性下降”。

今年 9 月，OpenAI 发布了其 o1 推理模型的预览版，并在本月早些时候发布了 o1 的完整版本。

所有这些额外的算力都很昂贵。OpenAI 现在花钱为单个查询生成多个答案，而不是单单生成一个答案。

在最近的一次 TED 演讲中，OpenAI 的一位资深研究科学家强调了推理的优势。

OpenAI 的科学家 Noam Brown 表示：“事实证明，让机器人在扑克牌中思考 20 秒，就能获得与将模型扩大 10 万倍、训练时间延长 10 万倍相同幅度的性能提升。 ”

一种更先进、高效的推理模型有望构成 Orion 的基础。OpenAI 的研究人员正潜心研究这种方法，希望将其与获取更多数据的旧方法结合起来，其中一些数据可能来自 OpenAI 的其他 AI 模型。