OpenAI突发超级AI？和两家竞争对手的动态一起看看吧！

人工智能学家

2024-12-22 16:43 ·北京

▲点击订阅，抓住风口

OpenAI 的12 天连续发布走到尾声，突然拿出一个炸场产品——新一代推理模型 o3。

这一次的更新不但产品代号直接从o1跳到o3，推理性能、编程以及数学等方面都有显著进步。

朋友圈里有充满了AGI即将到来的消息，欢呼也好，担忧也罢，一切似乎又回到了2022年底。

冷静下来，我们还是得问一个问题：o3展示了AI技术的又一次进步，但它真的代表了AGI吗？

或者说得更简单一些，AI产业的进化我们究竟该关注什么？

关于这个问题，11月21日的直播中王煜全已经有详细回答，今天我们借着OpenAI的o3模型继续聊聊，也站在产业视角，好好看看今天的AI格局。

11月前哨PPT报告，现在加入立即解锁

o3 模型：超强性能通向AGI？

OpenAI 此次发布的 o3 系列模型，命名上跳过了 "o2"，直接对标上一代 o1 模型。

有人认为o3是为了象征技术飞跃，然而据 The Information 的报道，这是为了避免与英国电信服务商 O2 产生商标冲突，算是一个大众理解与行业八卦之间的小分歧。

o3 模型确实有令人惊艳的性能进步，拿两个典型领域看：

数学方面，o3在 Frontier Math 数据集上的表现堪称飞跃。这个数据集包含的是前所未见的、难度极高的数学问题，即使是顶尖的数学家也需要数小时甚至数天才能解决一个问题，陶哲轩曾认为AI要花很久的时间才能有所建树。

o3 上手解决了 25.2% 的问题，而此前 AI 的最好成绩只有 2%。

编程领域，o3 在 Codeforces 上的得分达到了 2727 分，这相当于该平台编程大神榜单的第 175 名。

o3编程性能进步

做个简单对比，OpenAI 现任首席科学家以前也喜欢刷榜，他此前的历史最高分是 2655 分，这意味着 o3 在编程方面的能力已经超过了自己的创造者，编程领域或许很快就会迎来一次AI屠榜。

这一系列进步都是大家惊呼AI真要取代人的原因，我们这里先说一个好消息，那就是o3比人贵多了，我们大多数人都还不值得用AI取代（心酸）。

o3模型这次的参数多了三个算力档次，分别是low，medium 和 high，你可以简单当作AI思考越久效果越好，但是成本也会越高。

根据OpenAI发布的数据做测算，o3-low级别的成本是 o1-low 的 10 倍，搞定一个任务可能要花 20 美元，这听着还好，换成更高档呢？

o3-high的成本达到了o1-high 的 2000 倍！它回答你一个问题的成本可能会超过 3500 美元，花 2 万人民币听个答案，不知道你想问什么问题。

o3 离 AGI 还有多远？

OpenAI作为掀起AI变革的领头羊，已经和AGI（通用人工智能）概念绑定在了一起，所以它每次有大的技术改进都会引发相关的讨论。

回到技术的本质，我们还是要看看这轮o3的进步真的是通用智能吗？

其实11月底的两次直播中已经给出了判断：AI的进步从未停止，未来2年会是AI变革的关键时点，但AGI并不是这个发展曲线的简单延伸。

ARC-AGI 测试，由 Keras 的创始人 François Chollet 在 2019 年提出的，旨在评估 AI “学习” 能力。

ARC测试评分&成本

ARC-AGI 已经参与到了o3的性能测试中，创始人分享了测试结果，在第一版确实有惊人的成绩，如果用high档位正确率已经达到了88%，但他也提到面向即将更新的下一版本测试o3的正确率已经掉到了30%，聪明一些的人类则能做到95%。

更重要的是，o3在一些简单问题上反而效果很差。这不禁让我们反思，AI 的 “智能” 究竟是什么？

AI技术的核心要点是「学习」和「搜索」两个要素，此前的GPT范式拓展了学习的边界，现在的推理范式让AI有更多时间“思考”和“判断”，提供了更广阔的搜索空间，打开了技术进步的新窗口。

这是一个非常值得关注的新指标，但它绝不是观察AI进步和产业格局的唯一标杆。

OpenAI的大对头们

在 OpenAI 发布 o3 的同时，它的两大竞争对手谷歌和Anthropic也各自发布了新东西，在我们看来他们的动态更能帮助我们打开观察AI进化的新维度。

Anthropic发文分享了他们在构建Agent 方面的经验。他们强调，成功的 Agent 实现并不依赖于复杂的框架，而是通过简单、可组合的模式构建。

Anthropic 将 Agent 系统分为两种：工作流（Workflows）和 Agent。工作流是指通过预定义的代码路径协调 LLM 和工具的系统，而 Agent 则是指 LLM 动态地指导自身过程和工具使用的系统，自主地完成任务。

他们认为，构建 LLM 应用时，应尽可能选择最简单的解决方案，只有在必要时才增加复杂性，因为太复杂的框架化可能会导致成本增加和难以调试。

在现实世界中，一个简单的解决方案往往比复杂的方案更可靠，也更容易维护，也更符合AI进化的规律。

Google的动态更加直接，OpenAI的各路产品要么收费很贵，要么都是期货，我直接给你。

新一代 AI 模型 Gemini 2.0 Flash直接发布，并且能够直接使用。这款新模型能够进行高级推理，还能原生输出图像、语音、文本等多模态信息，是一位真正的 “全能选手”。

谷歌的做法不只是挑战OpenAI的领先地位，更重要的是他们证明了多模态、剪枝等技术仍然有巨大的潜力可挖。

OpenAI、Anthropic 和 Google 三家公司，代表了当前 AI 领域最前沿的技术方向，显然他们走在了相似又不同的道路上。

相似的是他们都在同一条路径上竞争，不同的是OpenAI开始加注推理方向，Anthropic则向Agent生态布局，谷歌开始砸重金全都要。

从他们三家身上，我们才能看到更全面些的产业图景：

2025年AGI百分百不会来，2025年AI百分百会迎来更波澜壮阔的时代，推理、多模态、Agent齐头并进，会有更多的新东西值得关注。

如果你还想了解更多最新、最详细的科技产业解读，欢迎长按下方二维码，加入前哨科技特训营。

↓点击加入，学会用AI为你工作（iOS用户请在电脑端打开）

↓¥399，掌握王煜全AI产业预测精华（iOS用户请在电脑端打开）

↓全球消费电子展，王煜全与你现场看未来（扫码加入）

此外，我们还为您准备了一份清单

“近期市场相关刺激政策一览表”

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴