又是期货，OpenAI推出全新推理模型o3，实力远超o1

AI先锋官

2024-12-21 07:28 ·北京

作者｜子川

来源｜AI先锋官

OpenAI 12天直播的最后一晚，终于祭出了压轴大招——

全新的推理模型，o3和o3 Mini模型。

不过这是个期货，计划明年一月份推出o3 Mini。

目前该模型还处于安全测试阶段，但从今天开始，o3 Mini将率先对外部安全研究人员开放测试！随后o3也会加入到开放测试中来。（怎么感觉和Sora的套路一样一样的呢）。

大家可以通过访问 OpenAI 的官方网站，填写申请表格参与测试，说不定运气爆棚，就预约上了呢。

地址：https://openai.com/index/early-access-for-safety-testing/

话不多说，接下来直接奉上大家最关心的内容——o3的成绩单！

软件风格基准测试

在SWE-Bench Verified测试中，o3模型准确率达到71.7%，比o1还高出20%左右。

代码竞赛测试

之前o1在 CodeForces（一个全球知名编程竞赛网站）上的分数是1891，这次o3直接冲到了2727！

在发布会上，奥特曼和马克还开玩笑的表示，这个分数可是超越了OpenAI首席科学家Yakov的2665分。

数学能力测试

编程强就算了，数学能力也有了“离谱”的飞跃！

在AIME 2024数学竞赛上，o3的准确率达到了96.7%（全程只错了一题），相比之下，o1的成绩是83.3%。

博士阶段科学问题测试

在 GPQA Diamond（博士级科学问题基准测试）上，o3的得分是 87.7%，成功超越了o1的 78%。

为了说明这个分数的厉害程度，马克特意举了个例子：专业博士的平均分也就 70% 左右。

EpochAI的Frontier数学基准测试

这个测试可是出了名的难——被誉为“目前最艰难的数学基准”，陶哲轩对这项测试的第一印象是“可能难住AI好几年”。

在此之前，国内外的顶级模型都没能在这个测试上得分超过 2%。

而这次，o3的得分在直接来了一个飙升，来到了25.2%。

ARC-AGI基准测试

ARC-AGI是Keras之父François Chollet发起的测试基准，是为AGI准备的测试题目，典型题目为图形逻辑推理，难度对于人工智能来说堪称变态级别。

给大家看一下各大模型的在ARC-AGI基准下的成绩，就知道这个玩意有多难了。

o1的成绩是32%，o3直接飙到了75.7%、87.5%。

为什么会有两个成绩？因为o3支持低思考程度和高思考程度两种设置。

o3实力这么强，o3-mini自然也不差，o3-mini还支持三种不同的设置：低、中和高推理。

给大家看一下它的成绩单：

在编码评估上，低推理模式和o1 Mini差不多，但中高推理已经全面超越了o1！

不过在博士级科学问题上，三种推理模式的表现都稍逊于o1了。

在给大家看一下o1 Mini在其他基准下的成绩。

此外，o3 Mini还支持函数调用、结构化输出、开发者消息等功能，与o1保持同一水准。

本来以为这次12天的直播会潦草收场，想不到真来了一个大的，o3不仅是推理能力的升级，更是一次AI智能的全面进化。

只想说，o3快点来吧！！！

最后揭秘一下为什么叫o3，而不是叫o2，

答案：避免与英国电信服务商O2的潜在版权或商标冲突。

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴