北京时间12月21日凌晨,在持续了近两周、共计12天 OpenAI 12Days 活动进入尾声,OpenAI正式宣布推出两款新一代推理模型:o3与o3-mini。
这两款大模型被视为此前大受关注的o1系列继任者,尤其是面对谷歌近期发布的 Gemini2.0Flash及其推理增强版本Gemini 2.0 Flash Thinking 所带来的行业震动,o3系列出现可谓给OpenAI自身的“马拉松式发布”画上了句号。
跳过“o2”,迎来“o3”
值得注意的是,OpenAI 直接跳过了“o2”的型号命名,一口气跨到“o3”。对于外界看来略显“跳跃”的命名,OpenAI CEO-Sam Altman奥特曼在直播中坦言,主要是出于与英国电信提供商O2潜在版权冲突的考虑所致。
同时,Altman 也承认OpenAI在产品命名上“一直不太擅长”,于是干脆跳过了 “o2” 的序号。与此命名调整一同到来的,是令人惊叹的性能提升。
此次发布的o3不仅在数学、科学和编程等传统“硬核”学科上进一步拔高了标准,还融合了更强大的推理功能,能够通过「私有思维链」(private chain of thought)自检与核查,从而帮助模型尽可能规避一些传统大模型易犯的事实错误。
根据官方透露,OpenAI 将“逐步邀请部分选定用户”率先测试这一新一代推理模型,完整公开版的发布时间尚未确定。不过,o3-mini有望在1月底向更多用户开放。
亮眼数据:从编程到数学再到抽象推理
在官方公布的多项基准测试中,o3相较o1有了更明显的进步:
编程与软件工程:
在SWE-Bench Verified 基准测试中,o3的正确率比o1提高22.8个百分点,证明其在大型项目及复杂代码编写上更胜一筹。
Codeforces评分达到2727分,已超过人类大部分参赛者的排名;根据官方披露,这意味着o3的代码能力进入“全球顶尖水平”。
数学与科学:
在AIME2024(美国高中层面高难度数学竞赛)中,o3取得了96.7%的成绩,几近满分;在研究生难度的GPQA Diamond 评测中也获得87.7%的高分。
在由EpochAI发起的高阶数学基准Frontier Math测试中,o3的解题成功率达 25.2%,而此前多款主流大模型的成绩均低于2%。
ARC-AGI高分,引发“是否接近 AGI”的热议:
在关键的ARC-AGI测试中,o3的最高得分达到了87.5%。要知道,人类平均得分在 84%左右。虽然在该测试更严格的“计算限制”模式下,o3的成绩会略有下滑,但其依旧显著领先此前的同类模型,成为当下最具突破性的结果之一。
由于ARC-AGI测试被视为衡量“能否适应全新任务并进行跨领域推理”的重要指标,一部分观察者因此大胆猜测:
o3也许是“距离AGI最近的一步”。但包括ARC评测联合创始人François Chollet在内的多位研究者都表示,“o3只是通往AGI的重要里程碑,而并非已经触及AGI真正的门槛。”
高昂的“推理成本”与更多的思考
与强大能力相伴而生的,是更为可观的推理时间和成本。
OpenAI 在发布会上特别提到,o3 可以设置不同程度的计算量(低/中/高),计算时间越长,推理结果通常越准确。在高计算模式下,完成某些复杂任务甚至需要数千美元,这也让人联想到另一个备受关注的问题——部署高端推理模型对算力和资金的要求是否会成为瓶颈?
同时,随着推理能力的升级,o3可能更“会思考”了,却也带来一些安全和对齐层面的担忧。此前有安全团队曾指出,o1与其他非推理大模型相比,更容易出现欺骗或误导性内容。
对于这一点,OpenAI 表示已经在o3中引入了名为“审议性对齐”(deliberative alignment)的新技术,以减少模型滥用、错误推理等潜在风险。但Altman也强调,自己依然期待在更成熟的联邦测试和监管框架下去优化这类大模型的安全性与可靠性。
o3-mini:更加精简、更具针对性
除了主打高阶推理、渴望挑战 AGI 边界的 o3 外,本次发布的另一款模型o3-mini也备受瞩目。
o3-mini主打“更小、更精简”,在推理速度与资源占用上都有更佳表现,适合对算力成本高度敏感且任务需求更专一的开发者。根据 Altman 的介绍,o3-mini 将在1月底优先向部分Pro用户及合作伙伴开放 API 测试,随后逐步扩大范围。
12天接力发布,终以“王炸”收官
回溯这12天,OpenAI所谓的“马拉松式发布”里,前期更多是功能碎片化升级。直到最后阶段才真正奉上了重磅产品——o3与o3-mini,可谓“save the best for last”。
在过去11天里,OpenAI从ChatGPT的多种新功能(如Canvas、Search、Projects等)到全新的桌面端与电话语音交互模式,再到开放给开发者的API升级,都在有条不紊地为这个压轴大戏做铺垫。
在行业格局瞬息万变的当下,OpenAI 此番用o3的发布再度向外界展示了其在推理领域的领先实力。随着这些推理模型在编程、科学、数学乃至抽象思维能力上的渐次突破,人们对所谓 “AGI”的期待也愈发高涨。
但正如模型作者、评测者与Altman本人都强调的那样,o3依然不是“最终形态”;这台新引擎未来还将面临诸多技术、伦理与安全层面的挑战。
无论如何,在被称作“算法与大模型之年”的2024行将结束之时,o3的出现显然为 2025年的AI竞技场埋下了更多悬念。
谁将在AGI竞赛中继续领先?
o3的问世才刚刚吹响了下一阶段的号角。
热门跟贴