作者|子川
来源|AI先锋官
OpenAI 12天直播的最后一晚,终于祭出了压轴大招——
全新的推理模型,o3和o3 Mini模型。
不过这是个期货,计划明年一月份推出o3 Mini。
目前该模型还处于安全测试阶段,但从今天开始,o3 Mini将率先对外部安全研究人员开放测试!随后o3也会加入到开放测试中来。(怎么感觉和Sora的套路一样一样的呢)。
大家可以通过访问 OpenAI 的官方网站,填写申请表格参与测试,说不定运气爆棚,就预约上了呢。
地址:https://openai.com/index/early-access-for-safety-testing/
话不多说,接下来直接奉上大家最关心的内容——o3的成绩单!
软件风格基准测试
在SWE-Bench Verified测试中,o3模型准确率达到71.7%,比o1还高出20%左右。
代码竞赛测试
之前o1在 CodeForces(一个全球知名编程竞赛网站)上的分数是1891,这次o3直接冲到了2727!
在发布会上,奥特曼和马克还开玩笑的表示,这个分数可是超越了OpenAI首席科学家Yakov的2665分。
数学能力测试
编程强就算了,数学能力也有了“离谱”的飞跃!
在AIME 2024数学竞赛上,o3的准确率达到了96.7%(全程只错了一题),相比之下,o1的成绩是83.3%。
博士阶段科学问题测试
在 GPQA Diamond(博士级科学问题基准测试) 上,o3的得分是 87.7%,成功超越了o1的 78%。
为了说明这个分数的厉害程度,马克特意举了个例子:专业博士的平均分也就 70% 左右。
EpochAI的Frontier数学基准测试
这个测试可是出了名的难——被誉为“目前最艰难的数学基准”,陶哲轩对这项测试的第一印象是“可能难住AI好几年”。
在此之前,国内外的顶级模型都没能在这个测试上得分超过 2%。
而这次,o3的得分在直接来了一个飙升,来到了25.2%。
ARC-AGI基准测试
ARC-AGI是Keras之父François Chollet发起的测试基准,是为AGI准备的测试题目,典型题目为图形逻辑推理,难度对于人工智能来说堪称变态级别。
给大家看一下各大模型的在ARC-AGI基准下的成绩,就知道这个玩意有多难了。
o1的成绩是32%,o3直接飙到了75.7%、87.5%。
为什么会有两个成绩?因为o3支持低思考程度和高思考程度两种设置。
o3实力这么强,o3-mini自然也不差,o3-mini还支持三种不同的设置:低、中和高推理。
给大家看一下它的成绩单:
在编码评估上,低推理模式和o1 Mini差不多,但中高推理已经全面超越了o1!
不过在博士级科学问题上,三种推理模式的表现都稍逊于o1了。
在给大家看一下o1 Mini在其他基准下的成绩。
此外,o3 Mini还支持函数调用、结构化输出、开发者消息等功能,与o1保持同一水准。
本来以为这次12天的直播会潦草收场,想不到真来了一个大的,o3不仅是推理能力的升级,更是一次AI智能的全面进化。
只想说,o3快点来吧!!!
最后揭秘一下为什么叫o3,而不是叫o2,
答案:避免与英国电信服务商O2的潜在版权或商标冲突。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
热门跟贴