打开网易新闻 查看精彩图片
点击订阅,抓住风口

OpenAI 的12 天连续发布走到尾声,突然拿出一个炸场产品——新一代推理模型 o3。

这一次的更新不但产品代号直接从o1跳到o3,推理性能、编程以及数学等方面都有显著进步。

朋友圈里有充满了AGI即将到来的消息,欢呼也好,担忧也罢,一切似乎又回到了2022年底。

冷静下来,我们还是得问一个问题:o3展示了AI技术的又一次进步,但它真的代表了AGI吗?

或者说得更简单一些,AI产业的进化我们究竟该关注什么?

关于这个问题,11月21日的直播中王煜全已经有详细回答,今天我们借着OpenAI的o3模型继续聊聊,也站在产业视角,好好看看今天的AI格局。

11月前哨PPT报告,现在加入立即解锁

打开网易新闻 查看精彩图片

o3 模型:超强性能通向AGI?

OpenAI 此次发布的 o3 系列模型,命名上跳过了 "o2",直接对标上一代 o1 模型。

有人认为o3是为了象征技术飞跃,然而据 The Information 的报道,这是为了避免与英国电信服务商 O2 产生商标冲突,算是一个大众理解与行业八卦之间的小分歧。

o3 模型确实有令人惊艳的性能进步,拿两个典型领域看:

数学方面,o3在 Frontier Math 数据集上的表现堪称飞跃。这个数据集包含的是前所未见的、难度极高的数学问题,即使是顶尖的数学家也需要数小时甚至数天才能解决一个问题,陶哲轩曾认为AI要花很久的时间才能有所建树。

o3 上手解决了 25.2% 的问题,而此前 AI 的最好成绩只有 2%。

编程领域,o3 在 Codeforces 上的得分达到了 2727 分,这相当于该平台编程大神榜单的第 175 名。

o3编程性能进步

打开网易新闻 查看精彩图片

做个简单对比,OpenAI 现任首席科学家以前也喜欢刷榜,他此前的历史最高分是 2655 分,这意味着 o3 在编程方面的能力已经超过了自己的创造者,编程领域或许很快就会迎来一次AI屠榜。

这一系列进步都是大家惊呼AI真要取代人的原因,我们这里先说一个好消息,那就是o3比人贵多了,我们大多数人都还不值得用AI取代(心酸)。

o3模型这次的参数多了三个算力档次,分别是low,medium 和 high,你可以简单当作AI思考越久效果越好,但是成本也会越高。

根据OpenAI发布的数据做测算,o3-low级别的成本是 o1-low 的 10 倍,搞定一个任务可能要花 20 美元,这听着还好,换成更高档呢?

o3-high的成本达到了o1-high 的 2000 倍!它回答你一个问题的成本可能会超过 3500 美元,花 2 万人民币听个答案,不知道你想问什么问题。

o3 离 AGI 还有多远?

OpenAI作为掀起AI变革的领头羊,已经和AGI(通用人工智能)概念绑定在了一起,所以它每次有大的技术改进都会引发相关的讨论。

回到技术的本质,我们还是要看看这轮o3的进步真的是通用智能吗?

其实11月底的两次直播中已经给出了判断:AI的进步从未停止,未来2年会是AI变革的关键时点,但AGI并不是这个发展曲线的简单延伸。

ARC-AGI 测试,由 Keras 的创始人 François Chollet 在 2019 年提出的,旨在评估 AI “学习” 能力。

ARC测试评分&成本

打开网易新闻 查看精彩图片

ARC-AGI 已经参与到了o3的性能测试中,创始人分享了测试结果,在第一版确实有惊人的成绩,如果用high档位正确率已经达到了88%,但他也提到面向即将更新的下一版本测试o3的正确率已经掉到了30%,聪明一些的人类则能做到95%。

更重要的是,o3在一些简单问题上反而效果很差。这不禁让我们反思,AI 的 “智能” 究竟是什么?

AI技术的核心要点是「学习」和「搜索」两个要素,此前的GPT范式拓展了学习的边界,现在的推理范式让AI有更多时间“思考”和“判断”,提供了更广阔的搜索空间,打开了技术进步的新窗口。

这是一个非常值得关注的新指标,但它绝不是观察AI进步和产业格局的唯一标杆。

OpenAI的大对头们

在 OpenAI 发布 o3 的同时,它的两大竞争对手谷歌和Anthropic也各自发布了新东西,在我们看来他们的动态更能帮助我们打开观察AI进化的新维度。

Anthropic发文分享了他们在构建Agent 方面的经验。他们强调,成功的 Agent 实现并不依赖于复杂的框架,而是通过简单、可组合的模式构建。

Anthropic 将 Agent 系统分为两种:工作流(Workflows)和 Agent。工作流是指通过预定义的代码路径协调 LLM 和工具的系统,而 Agent 则是指 LLM 动态地指导自身过程和工具使用的系统,自主地完成任务。

他们认为,构建 LLM 应用时,应尽可能选择最简单的解决方案,只有在必要时才增加复杂性,因为太复杂的框架化可能会导致成本增加和难以调试。

在现实世界中,一个简单的解决方案往往比复杂的方案更可靠,也更容易维护,也更符合AI进化的规律。

打开网易新闻 查看精彩图片

Google的动态更加直接,OpenAI的各路产品要么收费很贵,要么都是期货,我直接给你。

新一代 AI 模型 Gemini 2.0 Flash直接发布,并且能够直接使用。这款新模型能够进行高级推理,还能原生输出图像、语音、文本等多模态信息,是一位真正的 “全能选手”。

谷歌的做法不只是挑战OpenAI的领先地位,更重要的是他们证明了多模态、剪枝等技术仍然有巨大的潜力可挖。

OpenAI、Anthropic 和 Google 三家公司,代表了当前 AI 领域最前沿的技术方向,显然他们走在了相似又不同的道路上。

相似的是他们都在同一条路径上竞争,不同的是OpenAI开始加注推理方向,Anthropic则向Agent生态布局,谷歌开始砸重金全都要。

从他们三家身上,我们才能看到更全面些的产业图景:

2025年AGI百分百不会来,2025年AI百分百会迎来更波澜壮阔的时代,推理、多模态、Agent齐头并进,会有更多的新东西值得关注。

如果你还想了解更多最新、最详细的科技产业解读,欢迎长按下方二维码,加入前哨科技特训营。

↓点击加入,学会用AI为你工作(iOS用户请在电脑端打开)

打开网易新闻 查看精彩图片

↓¥399,掌握王煜全AI产业预测精华(iOS用户请在电脑端打开)

打开网易新闻 查看精彩图片

↓全球消费电子展,王煜全与你现场看未来(扫码加入)

此外,我们还为您准备了一份清单

“近期市场相关刺激政策一览表