比O1更强！OpenAI新一代推理模型O3亮相：AGI真的来了么？

尔東陈谭

2024-12-21 21:58 ·江苏

openAI今天展示了他们下一代模型O3，那些说O1是最强的模型的人，现在是不是该改口了？在他们眼里我想该到了O3是最强最炸裂了吧？

事实上，无论是国外，还是国内的部分博主，痴迷openAI的，已经开始说O3已经可以看作是AGI来了。不过我可能要给这类热泼个冷水了！

首先可以确定的是，O3相比它前一代O1要厉害不少了。这里说明一下哈，openAI没按数字顺序命名为O2，不代表是第3代，而是规避名称版权风险，这O3就是O1的迭代品。

根据openAI展示的内容来看，目前可知的O3提升地方大概有几处：

一是在软件任务组成的基准测试当中，O3准确率达到71.7%，比上一代提升了20% 以上；

二是在竞赛代码方面，O3得到的最高ELO 分数是2727分，比O1高893分，还比openAI目前最厉害的竞赛程序员和指导员高227分；

三是在数学竞赛基准测试中，O3的AIMI准确率约为 96.7%，比O1提升了13.4%；

第四个，O3在在博士水平科学问题上测试，获得的准确率为87.7%，这是与人类博士水平基本一致的，比O1提升了近10%；

最后在rkg Pub上，O3是新的第一名。

不难看出，相较于O1来说，O3所有的参数提升还是较大的。因此，就有人基于这些数据为证据，说明O3已经是AGI了，或者无限接近AGI了。我觉得这是想多了，这才哪到哪呢？

不否认在固定数据测试中，openAI的人工智能正在努力提升，也很先进。但是AGI目前仍是一种人工智能的愿景，指的是机器能够像人类一样理解、学习和应用知识，具备广泛的认知能力，可以在多个不同的任务领域表现出智能行为，而不仅仅局限于特定的、预先编程好的任务。

意味着，它必须能够灵活地处理各种任务，包括但不限于语言处理、数学计算、空间认知、逻辑推理等众多人类智能所涉及的领域。

事实上， AGI仍然是人工智能领域的一个远大目标，就连实现AGI的标准，仍在探索、讨论和完善之中。

也就是说，最根本最科学的标准都未成型，目前也只有一个大体的标准，想要算得上是实现了AGI，分别实现五个能力：跨领域学习能力，灵活的推理和解决问题能力，自我意识和自我改进能力，理解和生成自然语言（人类语言）的能力，适应新环境和新任务的能力。

而且，按照OpenAI提出评估其 AI 系统的智能水平的五级标准来看，从Level 1到Level 5逐步向AGI迈进。目前也是刚刚迈过Level 1即对话式AI阶段，正进入Level 2 “推理者” 阶段。

所以，O3目前的水平，还远远不及AGI的。只能说O3是O1的完美迭代者，在某些性能上进行了很大的提升。

还有，在O3之前还有个mini版，提升并没有多少，按openAI的惯性顺序，会是先发布mini版，然后再是O3正式版。然而这两个版本都暂时还不知道什么时候发布，最快明年上半年mini版。

因此，openAI现在就亮出来，展示性能参数，除了表现自己的技术能力，我觉得更有可能是展示自己的研究成果好获取更多的投资。

毕竟openAI坚持走的AGI之路是Scaling law，这条路越往后越难，难在资源投入越来越大，获得的提升效果会越来越小，所以openAI需要更多的投资。大伙说会不会是这样呢？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴