作者|冬梅

OpenAI 12 天的马拉松式发布活动,也终于迎来了尾声。

在这长达两个多星期的系列发布期间,谷歌连续放出两款王炸大模型 Gemini 2.0 Flash 以及专攻推理的 Gemini 2.0 Flash Thinking,这种情况下,OpenAI 如果再不拿出点看家本领恐怕有些说不过去了。

在前几天无关痛痒的新功能推出后,人们都在期待 OpenAI 能放出点“猛料”。别急,“猛料”来了......

OpenAI 发布 o3 和 o3 mini 大模型

刚刚,OpenAI 宣布推出两款前沿模型:o3 和 o3-mini。它们是本月初刚刚全面发布的 o1 和 o1 mini 模型的继任者,更准确地说,o3 是一个像 o1 一样的模型系列,o3-mini 是一个更小、更精简的模型,针对特定任务进行了微调。OpenAI 正在慢慢邀请选定的用户测试这套新的推理模型。

早在今天直播之前,OpenAI CEO Sam Altman 就在 X 平台上发布推文暗示了新 AI 模型 GPT-o3 的发布。Altman 的推文中包含了“呵呵呵,明天见”和“找到线索,应该会说哦哦哦”等短语,暗示了 o3 模型即将发布。推文中“o”和“h”的反复使用被视为即将发布的预兆。

打开网易新闻 查看精彩图片

此次发布恰逢 OpenAI 的“OpenAI 12 天”活动的最后一天。在过去的 11 天里,OpenAI 发布了功能齐全的 o1 模型并推出了相关 API。此外,该公司还升级了各种功能,包括函数调用、结构化输出、推理工作量控制、开发人员消息传递和视觉输入功能。

“我们认为这是人工智能下一阶段的开始,你可以用这些模型来完成越来越复杂、需要大量推理的任务,”Altman 说。“在本次活动的最后一天,我们认为从一个前沿模型过渡到下一个前沿模型会很有趣。”

Altman 在直播中表示,公司计划在 1 月底发布 o3-mini,并在“此后不久”发布 o3。

值得一提的是,OpenAI 此次发布的新模型命名为 o3,而不是 o2,这又是为什么?据 The Information 报道,OpenAI 跳过 o2 是为了避免与英国电信提供商 O2 发生潜在冲突。Altman 在今天上午的直播中证实了这一点。Altman 表示,OpenAI“在命名方面一直很糟糕”。

o3 到底强在哪?

那么,o3 到底强在哪里?

在直播中,Altman 表示,o3 模型“在编码方面表现出色”,而且 OpenAI 分享的基准测试也支持它,甚至超过了 o1 在编程任务上的表现,具体数据如下:

打开网易新闻 查看精彩图片

  • 卓越的编码性能:o3 在 SWE-Bench Verified 上比 o1 高出 22.8 个百分点,并获得了 2727 的 Codeforces 评分,超过了 OpenAI 首席科学家的 2665 分。

  • 数学和科学掌握:o3 在 AIME 2024 考试中取得 96.7% 的成绩,仅缺席一道题,在 GPQA Diamond 考试中取得 87.7% 的成绩,远远超过人类专家的表现,甚至能解开史上最难的数学题目。

  • Frontier 基准测试:该模型在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了新纪录,解决了 25.2% 的问题,而其他模型的解决率均未超过 2%。在 ARC-AGI 测试中,o3 的得分是 o1 的三倍,超过 85%(经 ARC Prize 团队现场验证),代表了概念推理领域的一个里程碑。

 OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!
打开网易新闻 查看更多视频
OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

在推理能力上 o3 也比以往有了非常大的改进。

与大多数人工智能不同,诸如 o3 之类的推理模型能够有效地自我核实事实,这有助于它们避免通常会绊倒模型的一些陷阱。

这种事实核查过程会产生一些延迟。与之前的 o1 一样,o3 需要更长的时间(通常要多几秒到几分钟)才能得出解决方案,而典型的非推理模型则不然。好处是什么?它在物理、科学和数学等领域往往更可靠。

o3 经过训练,可以在做出反应之前通过 OpenAI 所称的“私人思维链”进行“思考”。该模型可以推理任务并提前计划,在较长时间内执行一系列操作,帮助它找到解决方案。

在实践中,给出一个提示后,o3 会在回答之前停顿一下,考虑一系列相关提示,并在此过程中“解释”其推理。一段时间后,该模型会总结出它认为最准确的答案。

o3 的新功能是能够“调整”推理时间。模型可以设置为低、中或高计算(即思考时间)。计算时间越长,o3 在任务上的表现就越好。

o3 系列模型加强了对安全和对齐的承诺

除了这些进步之外,OpenAI 还加强了对安全和协调的承诺。

Altman 表示,在 OpenAI 发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低此类模型的风险。

尽管 o3 已经非常先进了,但它也存在风险。人工智能安全测试人员发现,o1 的推理能力使其欺骗人类用户的概率比传统的“非推理”模型更高——或者说,比 Meta、Anthropic 和 Google 的领先人工智能模型更高。o3 欺骗的概率可能比其前身更高。

因此,OpenAI 表示,它正在使用一种新技术“审议性对齐”,使 o3 等模型与其安全原则保持一致。(o1 以相同的方式对齐。)该项技术还将在协调 o3 和 o3-mini 方面发挥关键作用,确保它们的能力强大而负责。

业内如何评价 o3?

此次的 o3 系列模型的发布可谓赚足了眼球,因为 OpenAI 做出了一个惊人的声明:o3 至少在某些条件下接近 AGI——但也存在重大隐患。

AGI 是“通用人工智能”的缩写,泛指能够执行人类所能完成的任何任务的人工智能。但对于通用人工智能,OpenAI 有自己的定义:“在最具经济价值的工作上表现优于人类的高度自主系统。”

实现 AGI 将是一个大胆的宣言。而且这对 OpenAI 来说也具有非同凡响的意义。根据与密切合作伙伴和投资者微软的协议条款,一旦 OpenAI 实现 AGI,它就不再有义务让微软使用其最先进的技术(即符合 OpenAI AGI 定义的技术)。

但从一项基准测试来看,OpenAI 正在慢慢接近 AGI。

在 ARC-AGI(一项旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能的测试)中,o3 在高计算设置下获得了 87.5% 的分数。在最差的情况下(在低计算设置下),该模型的性能是 o1 的三倍。

当然,高计算设置的成本非常高——根据 ARC-AGI 联合创始人 Francois Chollet 的说法,每个任务的成本高达数千美元。

打开网易新闻 查看精彩图片

Francois Chollet 在 X 上发文称:“今天,OpenAI 宣布了其下一代推理模型 o3。我们与 OpenAI 合作在 ARC-AGI 上对其进行了测试,我们认为这代表了让 AI 适应新任务的重大突破。它在低计算模式下的半私有评估中得分为 75.7%(计算中每个任务 20 美元),在高计算模式下得分为 87.5%(每个任务数千美元)。它非常昂贵,但这不是在使蛮力——这些功能是新领域,需要认真的科学关注。”

打开网易新闻 查看精彩图片

那么,这就是 AGI 吗?Francois Chollet 表示:“虽然新模型非常令人印象深刻,代表着 AGI 道路上的一个重要里程碑,但我不认为这就是 AGI——仍有相当多的 ARC-AGI-1 任务 o3 无法解决,而且我们有早期迹象表明 ARC-AGI-2 对 o3 来说仍然极具挑战性。这表明,创建不饱和的、有趣的基准仍然是可行的,这些基准对人类来说很容易,但对人工智能来说却不可能完成——无需专业知识。只有当我们已经再也无法创建类似这种测评时,我们才算真的拥有 AGI。”

虽然,ARC-AGI 有其局限性——而且它对 AGI 的 定义 只是众多定义之一。但在其他基准测试中,o3 同样击败了竞争对手。

在专注于编程任务的基准 SWE-Bench Verified 上,o3 的表现比 o1 高出 22.8 个百分点,并获得了 Codeforces 评分(另一个衡量编码技能的标准)2727 分。(2400 分的评分使工程师处于 99.2 个百分点。)o3 在 2024 年美国数学邀请赛上得分为 96.7%,只错一道题,在 GPQA Diamond(一组研究生水平的生物学、物理学和化学问题)上得分为 87.7%。最后,o3 在 EpochAI 的 Frontier Math 基准上创下了新纪录,解决了 25.2% 的问题;其他模型都未超过 2%。

打开网易新闻 查看精彩图片

o3 模型的发布在 Reddit 论坛上引发了广泛讨论。有用户表示:

“Chollet 很客观地评价了这款模型,这应该具有重要意义。此外,无论 AGI 是如何定义的(当然,对于许多定义来说,这并不是定义),结果都必须得到承认。o3 现在在重要的、具有经济价值的认知任务中远远领先于其他模型。”

有看热闹不嫌事儿大的用户期待能有人将谷歌刚刚发布的 Gemini 2.0 Flash Thinking 模型和 o3 进行对比,该用户表示:

“根据他们的基准测试,o3 的表现远胜于 o1。我倒想看看它们在实际用例中的表现。我认为他们说的是,与 o1 和 o1-mini 相比,o3(至少是 API)的运行成本更低。期待他们与 Gemini Flash Thinking 的对比。激动人心的时刻即将到来……”

推理模型正成为大势所趋

OpenAI 发布首批推理模型后,包括谷歌在内的竞争对手 AI 公司纷纷推出了大量推理模型。

11 月初,国内 AI 研究公司 DeepSeek 发布了其首款推理模型 DeepSeek-R1 的预览版。同月,阿里巴巴的通义千问团队发布了其声称是 o1 的第一个“公开”挑战者的产品。

那么,究竟是什么打开了推理模型的闸门?

首先,就是寻找改进生成式人工智能的新方法。因为大家逐渐发现,用于扩展模型的“蛮力”技术不再能带来像以前一样的重大技术突破。

然而,也并非所有人都相信推理模型是最佳的发展方向。首先,它们往往价格昂贵,因为运行它们需要大量的计算能力。尽管到目前为止,它们在基准测试中表现良好,但尚不清楚推理模型是否能保持这种进步速度。

有趣的是,o3 的发布正值 OpenAI 最有成就的科学家之一离职之际。Alec Radford 是 OpenAI 生成式 AI 模型“GPT 系列”(即 GPT-3、GPT-4 等)学术论文的主要作者,本周他宣布将离职从事独立研究。

最后,不得不说,OpenAI,这次真的是 save the best for last。作为全球顶级 AI 明星独角兽,OpenAI 技术先进是真,但比技术更先进的,或许是 Altman 高超的营销手段吧。

最后的最后,附上 InfoQ 编辑部连续 12 天跟踪报道的“OpenAI 12 天马拉松发布“活动的重点信息回顾:

:OpenAI 发布了全新的语言模型 ChatGPT o1,其在数学和科学领域的表现更出色,提供更精准的答案。同时,推出了 ChatGPT Pro 订阅服务,月费为 200 美元。

:OpenAI 专为开发者发布了 AI 增强微调(AI Reinforcement Fine-Tuning)功能。这是一种通过优化 AI 模型推理能力来提升其性能的方法。

:这一天,OpenAI 发布了 AI 视频生成工具 Sora。不过如果未订阅 ChatGPT Pro,其创作功能会受到一定限制。

:OpenAI 为 ChatGPT 推出了全新升级功能——Canvas。Canvas 让代码和文本处理更加高效,并提供了多种实用的写作工具。

第 5 天:OpenAI 宣布 ChatGPT 集成到 Apple Intelligence,并作为 iOS 18.2 的一部分正式上线。然而,遗憾的是 ChatGPT 在发布后立即。

:ChatGPT 高级语音模式(Advanced Voice Mode)新增了视觉能力,能够识别屏幕上的内容,同时还可以识别用户。

:OpenAI 重点优化了 ChatGPT 的组织能力,新增了 Projects 功能,用于更好地整理和管理 ChatGPT 会话。

:OpenAI 将会话式搜索功能 ChatGPT Search 推广至所有 ChatGPT 账户,并集成至高级语音模式,同时显著提升了移动端的响应速度。

:OpenAI 面向开发者推出了一系列功能升级和工具,开放满血 o1 模型 API,支持函数调用、开发人员消息、结构化输出和视觉功能,同时推理成本下降 60%。

:ChatGPT 免费热线电话开通了:OpenAI 宣布将 ChatGPT 引入手机通信领域。他们建议用户将 ChatGPT 添加到联系人列表中,这样就可以通过拨打电话与其进行语音互动。这项功能还支持多种设备,包括智能手机、翻盖老人机,以及不需要 WiFi 的复古座机。

:OpenAI 推出适用于 Mac 和 Windows 的 ChatGPT 桌面应用程序。ChatGPT 可以支持 Apple Notes、Notion、Warp、Xcode 等 30 多个应用程序。

https://www.binance.com/en/square/post/12-20-2024-openai-ceo-hints-at-new-ai-model-gpt-o3-release-17819861054250

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。

今日荐文

你也「在看」吗?