鞭牛士报道,12月21日消息,据外电报道,OpenAI 将其最重要的公告放在了为期12 天的shipmas活动的最后一天。

周五,该公司发布了 o3,这是今年早些时候发布的o1 推理模型的继任者。更准确地说,o3 是一个模型系列——就像 o1 一样。有 o3 和 o3-mini,后者是一个更小、更精简的模型,针对特定任务进行了微调。

OpenAI 做出了一个惊人的声明:o3 至少在某些条件下接近AGI——但有重大警告。下文将对此进行详细介绍。

为什么将新模型称为 o3,而不是 o2?这或许是商标问题。

据The Information 报道,OpenAI 跳过 o2 是为了避免与英国电信提供商 O2 发生潜在冲突。首席执行官 Sam Altman 在今天上午的直播中证实了这一点。我们生活的世界很奇怪,不是吗?

o3 和 o3-mini 都尚未广泛推出,但安全研究人员可以从今天开始注册预览 o3-mini。o3 预览版将在稍后推出;OpenAI 没有具体说明具体时间。Altman 表示,计划在 1 月底推出 o3-mini,随后推出 o3。

这与他最近的言论有些矛盾。在本周的一次采访中,Altman 表示,在 OpenAI 发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低此类模型的风险。

而且也存在风险。人工智能安全测试人员发现,o1 的推理能力使其欺骗人类用户的概率比传统的非推理模型更高——或者说,比 Meta、Anthropic 和 Google 的领先人工智能模型更高。o3 欺骗的概率可能比其前身更高;一旦 OpenAI 的红队合作伙伴发布他们的测试结果,我们就会知道答案。

不管怎样,OpenAI 表示,它正在使用一种新技术审议性对齐,使 o3 等模型与其安全原则保持一致。(o1 以相同的方式对齐。)该公司在一项新研究中详细介绍了其工作。

推理步骤

与大多数人工智能不同,诸如 o3 之类的推理模型能够有效地自我核实事实,这 有助于它们避免通常会绊倒模型的一些陷阱。

这种事实核查过程会产生一些延迟。与之前的 o1 一样,o3 需要更长的时间(通常要多几秒到几分钟)才能得出解决方案,而典型的非推理模型则不然。好处是什么?它在物理、科学和数学等领域往往更可靠。

o3 经过训练,可以在做出反应之前通过 OpenAI 所称的私人思维链进行思考。该模型可以推理任务并提前计划,在较长时间内执行一系列操作,帮助它找到解决方案。

在实践中,给出一个提示后,o3 会在回答之前停顿一下,考虑一系列相关提示,并在此过程中解释其推理。一段时间后,该模型会总结出它认为最准确的答案。

o3 与 o1 相比的新特点是能够“调整”推理时间。模型可以设置为低、中或高计算(即思考时间)。计算时间越高,o3 在任务上的表现就越好。

基准和 AGI

今天的一个大问题是,OpenAI 是否会声称其最新模型正在接近 AGI。

AGI 是通用人工智能的缩写,泛指能够执行人类所能完成的任何任务的人工智能。OpenAI 有自己的定义:在最具经济价值的工作上表现优于人类的高度自主系统。

实现 AGI 将是一个大胆的宣言。而且这对 OpenAI 来说也具有合同意义。根据与密切合作伙伴兼投资者微软的协议条款,一旦 OpenAI 达到 AGI,它就不再有义务让微软使用其最先进的技术(即符合 OpenAI AGI 定义的技术)。

从一项基准来看,OpenAI正在慢慢接近 AGI。在 ARC-AGI(一项旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能的测试)中,o3 在高计算设置下获得了 87.5% 的分数。在最差的情况下(在低计算设置下),该模型的性能是 o1 的三倍。

当然,高计算设置的成本极其昂贵——根据 ARC-AGI 联合创始人 François Chollet 的说法,每个挑战的成本高达数千美元。

Chollet 还指出,o3 在 ARC-AGI 中在一些非常简单的任务上失败了,这表明——在他看来——该模型表现出与人类智能的根本差异。

Chollet 在一份声明中继续说道:早期数据表明,即将推出的 [ARC-AGI 的继任者] 基准仍将对 o3 构成重大挑战,即使在高计算量的情况下也可能会将其得分降低到 30% 以下(而聪明的人即使没有经过训练也能得分超过 95%)。当创建对普通人来说很容易但对人工智能来说很难的任务变得根本不可能时,你就会知道 AGI 已经到来了。

顺便说一句,OpenAI 表示将与 ARC-AGI 背后的基金会合作构建其下一代基准。

当然,ARC-AGI 有其局限性——而且它对AGI 的定义只是众多定义之一。

在其他基准测试中,o3 击败了竞争对手。

该模型在专注于编程任务的基准 SWE-Bench Verified 上的表现比 o1 高出 22.8 个百分点,并获得了 Codeforces 评分(另一个衡量编码技能的标准)2727 分。(2400 分的评分使工程师处于 99.2 百分位。)o3 在 2024 年美国数学邀请赛上得分为 96.7%,只错一道题,在 GPQA Diamond(一组研究生水平的生物学、物理学和化学问题)上得分为 87.7%。最后,o3 在 EpochAI 的 Frontier Math 基准上创下了新纪录,解决了 25.2% 的问题;其他模型都没有超过 2%。

当然,这些说法必须谨慎对待。它们来自 OpenAI 的内部评估。我们需要等待,看看该模型在未来如何经受来自外部客户和组织的基准测试。

一种趋势

OpenAI 发布首批推理模型后,包括谷歌在内的竞争对手 AI 公司纷纷推出了大量推理模型。11 月初,由量化交易员资助的 AI 研究公司 DeepSeek 发布了其首款推理模型 DeepSeek-R1的预览版。同月,阿里巴巴的 Qwen 团队 发布了 据称是 o1 的第一个“公开”挑战者(它可以下载、微调并在本地运行)。

是什么打开了推理模型的闸门?首先,就是寻找改进生成式人工智能的新方法。正如 TechCrunch 最近 报道的那样,用于扩展模型的蛮力技术不再能带来曾经的改进。

并非所有人都相信推理模型是最佳的发展方向。首先,它们往往价格昂贵,因为运行它们需要大量的计算能力。尽管到目前为止,它们在基准测试中表现良好,但尚不清楚推理模型是否能保持这种进步速度。

有趣的是,o3 的发布正值 OpenAI 最有成就的科学家之一离职之际。Alec Radford 是 OpenAI 生成式 AI 模型GPT 系列(即 GPT-3、GPT-4 等)学术论文的主要作者,本周他宣布将离职从事独立研究。