作者|子川

来源|AI先锋官

OpenAI 12天直播的最后一晚,终于祭出了压轴大招——

全新的推理模型,o3和o3 Mini模型

不过这是个期货计划明年一月份推出o3 Mini。

目前该模型还处于安全测试阶段,但从今天开始,o3 Mini将率先对外部安全研究人员开放测试!随后o3也会加入到开放测试中来。(怎么感觉和Sora的套路一样一样的呢)。

打开网易新闻 查看精彩图片

大家可以通过访问 OpenAI 的官方网站,填写申请表格参与测试,说不定运气爆棚,就预约上了呢。

地址:https://openai.com/index/early-access-for-safety-testing/

话不多说,接下来直接奉上大家最关心的内容——o3的成绩单!

软件风格基准测试

在SWE-Bench Verified测试中,o3模型准确率达到71.7%,比o1还高出20%左右。

打开网易新闻 查看精彩图片

代码竞赛测试

之前o1在 CodeForces(一个全球知名编程竞赛网站)上的分数是1891,这次o3直接冲到了2727

在发布会上,奥特曼和马克还开玩笑的表示,这个分数可是超越了OpenAI首席科学家Yakov的2665分。

数学能力测试

编程强就算了,数学能力也有了“离谱”的飞跃!

AIME 2024数学竞赛上,o3的准确率达到了96.7%(全程只错了一题),相比之下,o1的成绩是83.3%

打开网易新闻 查看精彩图片

博士阶段科学问题测试

在 GPQA Diamond(博士级科学问题基准测试) 上,o3的得分是 87.7%,成功超越了o1的 78%。

为了说明这个分数的厉害程度,马克特意举了个例子:专业博士的平均分也就 70% 左右。

EpochAI的Frontier数学基准测试

这个测试可是出了名的难——被誉为“目前最艰难的数学基准”,陶哲轩对这项测试的第一印象是“可能难住AI好几年”。

在此之前,国内外的顶级模型都没能在这个测试上得分超过 2%。

而这次,o3的得分在直接来了一个飙升,来到了25.2%。

打开网易新闻 查看精彩图片

ARC-AGI基准测试

ARC-AGI是Keras之父François Chollet发起的测试基准,是为AGI准备的测试题目,典型题目为图形逻辑推理,难度对于人工智能来说堪称变态级别。

打开网易新闻 查看精彩图片

给大家看一下各大模型的在ARC-AGI基准下的成绩,就知道这个玩意有多难了。

打开网易新闻 查看精彩图片

o1的成绩是32%,o3直接飙到了75.7%、87.5%。

为什么会有两个成绩?因为o3支持低思考程度高思考程度两种设置。

o3实力这么强,o3-mini自然也不差o3-mini还支持三种不同的设置:低、中和高推理。

给大家看一下它的成绩单:

打开网易新闻 查看精彩图片

编码评估上,低推理模式和o1 Mini差不多,但中高推理已经全面超越了o1!

不过在博士级科学问题上,三种推理模式的表现都稍逊于o1了。

打开网易新闻 查看精彩图片

在给大家看一下o1 Mini在其他基准下的成绩。

打开网易新闻 查看精彩图片

此外,o3 Mini还支持函数调用结构化输出开发者消息等功能,与o1保持同一水准。

本来以为这次12天的直播会潦草收场,想不到真来了一个大的,o3不仅是推理能力的升级,更是一次AI智能的全面进化。

只想说,o3快点来吧!!!

最后揭秘一下为什么叫o3,而不是叫o2,

答案:避免与英国电信服务商O2的潜在版权或商标冲突。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾