鞭牛士报道,11月11日消息,据路透社报道,OpenAI 等人工智能公司正在寻求通过开发使用更像人类的方式让算法思考的训练技术来克服在追求越来越大的大型语言模型过程中遇到的意外延迟和挑战。
十几位人工智能科学家、研究人员和投资者向路透社表示,他们认为这些技术(OpenAI 最近发布的 o1 模型背后)可能会重塑人工智能军备竞赛,并对人工智能公司所需求的各类资源(从能源到芯片类型)产生影响。
OpenAI 拒绝对本文发表评论。
两年前,病毒式聊天机器人 ChatGPT 发布后,估值因人工智能热潮而大幅上涨的科技公司公开宣称,通过增加更多数据和计算能力来扩大现有模型将不断改善人工智能模型。
但现在,一些最杰出的人工智能科学家正在谈论这种越大越好理念的局限性。
人工智能实验室 Safe Superintelligence (SSI) 和 OpenAI 的联合创始人 Ilya Sutskever 最近告诉路透社,扩大预训练(即训练人工智能模型的阶段,使用大量未标记的数据来理解语言模式和结构)的结果已经达到稳定状态。
苏茨克弗被广泛认为是早期倡导者,主张通过在预训练中使用更多数据和计算能力来实现生成式人工智能的巨大飞跃,最终创造了 ChatGPT。苏茨克弗今年早些时候离开 OpenAI,创立了 SSI。
「2010 年代是扩张的时代,现在我们又回到了好奇和发现的时代。每个人都在寻找下一个目标。」Sutskever 说。「扩张正确的事情现在比以往任何时候都更重要。」
苏茨克弗拒绝透露他的团队如何解决这个问题的更多细节,只是说 SSI 正在研究一种扩大预训练的替代方法。
据三位熟悉私人事务的消息人士透露,在幕后,各大人工智能实验室的研究人员在发布一款大型语言模型的竞赛中遇到了拖延和令人失望的结果,该模型的性能要优于 OpenAI 近两年来的 GPT-4 模型。
大型模型的所谓训练运行可能花费数千万美元,因为需要同时运行数百个芯片。由于系统非常复杂,它们更容易出现硬件故障;研究人员可能直到运行结束才知道模型的最终性能,而这可能需要数月时间。
另一个问题是大型语言模型会吞噬大量数据,而人工智能模型已经耗尽了世界上所有可访问的数据。电力短缺也阻碍了训练的进行,因为该过程需要大量能源。
为了克服这些挑战,研究人员正在探索测试时计算,这是一种在所谓的推理阶段或使用模型时增强现有 AI 模型的技术。例如,模型可以实时生成和评估多种可能性,最终选择最佳前进路径,而不是立即选择一个答案。
这种方法使模型能够将更多的处理能力投入到具有挑战性的任务中,比如数学或编码问题或需要类似人类的推理和决策的复杂操作。
「事实证明,让机器人在一手扑克牌中思考 20 秒,所获得的性能提升,与将模型扩大 10 万倍、训练时间延长 10 万倍的效果相同。」参与 o1 开发的 OpenAI 研究员诺姆·布朗 (Noam Brown) 在上个月于旧金山举行的 TED AI 大会上表示。
OpenAI 在其新发布的模型“o1”中采用了这项技术,该模型以前称为 Q* 和 Strawberry,路透社于 7 月首次报道了这一消息。
O1 模型可以以多步骤的方式思考问题,类似于人类的推理。它还涉及使用来自 博士和行业专家的数据和反馈。o1 系列的秘诀是在 GPT-4 等基础模型之上进行的另一组训练,该公司表示计划将这项技术应用于更多、更大的基础模型。
与此同时,据五位知情人士透露,来自 Anthropic、xAI 和 Google DeepMind 等其他顶尖人工智能实验室的研究人员也在致力于开发自己的技术版本。
OpenAI 首席产品官 Kevin Weil 在 10 月份的一次技术会议上表示:我们看到了很多唾手可得的成果,我们可以利用这些成果快速改进这些模型。当人们赶上来时,我们会努力领先三步。
谷歌和 xAI 没有回应置评请求,而 Anthropic 也没有立即发表评论。
这可能会改变人工智能硬件的竞争格局,目前为止,人工智能硬件市场主要由对 Nvidia 人工智能芯片的无限需求主导。
从红杉资本到 Andreessen Horowitz 等知名风险投资公司,他们已经投入数十亿美元资助 OpenAI 和 xAI 等多个人工智能实验室昂贵的人工智能模型开发,他们正在关注这一转变,并权衡其昂贵赌注的影响。
红杉资本合伙人 Sonya Huang 向路透社表示:这种转变将使我们从大规模预训练集群的世界转向推理云,即用于推理的分布式云服务器。
市场对 Nvidia 最前沿的 AI 芯片的需求推动了该公司成为全球市值最高的公司,并于 10 月超越苹果。与 Nvidia 占据主导地位的训练芯片不同,这家芯片巨头在推理市场可能会面临更多竞争。
当被问及对其产品需求可能产生的影响时,Nvidia 指出,公司最近在演讲中强调了 o1 模型背后的技术的重要性。该公司首席执行官黄仁勋谈到了对其芯片进行推理的需求不断增加。
黄仁勋上个月在印度举行的一次会议上谈到该公司最新的人工智能芯片时表示:我们现在发现了第二条缩放定律,这是推理时的缩放定律……所有这些因素都导致对 Blackwell 的需求非常高。
热门跟贴