▲点击订阅,抓住风口
OpenAI 的12 天连续发布走到尾声,突然拿出一个炸场产品——新一代推理模型 o3。
这一次的更新不但产品代号直接从o1跳到o3,推理性能、编程以及数学等方面都有显著进步。
朋友圈里有充满了AGI即将到来的消息,欢呼也好,担忧也罢,一切似乎又回到了2022年底。
冷静下来,我们还是得问一个问题:o3展示了AI技术的又一次进步,但它真的代表了AGI吗?
或者说得更简单一些,AI产业的进化我们究竟该关注什么?
关于这个问题,11月21日的直播中王煜全已经有详细回答,今天我们借着OpenAI的o3模型继续聊聊,也站在产业视角,好好看看今天的AI格局。
11月前哨PPT报告,现在加入立即解锁
o3 模型:超强性能通向AGI?
OpenAI 此次发布的 o3 系列模型,命名上跳过了 "o2",直接对标上一代 o1 模型。
有人认为o3是为了象征技术飞跃,然而据 The Information 的报道,这是为了避免与英国电信服务商 O2 产生商标冲突,算是一个大众理解与行业八卦之间的小分歧。
o3 模型确实有令人惊艳的性能进步,拿两个典型领域看:
数学方面,o3在 Frontier Math 数据集上的表现堪称飞跃。这个数据集包含的是前所未见的、难度极高的数学问题,即使是顶尖的数学家也需要数小时甚至数天才能解决一个问题,陶哲轩曾认为AI要花很久的时间才能有所建树。
o3 上手解决了 25.2% 的问题,而此前 AI 的最好成绩只有 2%。
编程领域,o3 在 Codeforces 上的得分达到了 2727 分,这相当于该平台编程大神榜单的第 175 名。
o3编程性能进步
做个简单对比,OpenAI 现任首席科学家以前也喜欢刷榜,他此前的历史最高分是 2655 分,这意味着 o3 在编程方面的能力已经超过了自己的创造者,编程领域或许很快就会迎来一次AI屠榜。
这一系列进步都是大家惊呼AI真要取代人的原因,我们这里先说一个好消息,那就是o3比人贵多了,我们大多数人都还不值得用AI取代(心酸)。
o3模型这次的参数多了三个算力档次,分别是low,medium 和 high,你可以简单当作AI思考越久效果越好,但是成本也会越高。
根据OpenAI发布的数据做测算,o3-low级别的成本是 o1-low 的 10 倍,搞定一个任务可能要花 20 美元,这听着还好,换成更高档呢?
o3-high的成本达到了o1-high 的 2000 倍!它回答你一个问题的成本可能会超过 3500 美元,花 2 万人民币听个答案,不知道你想问什么问题。
o3 离 AGI 还有多远?
OpenAI作为掀起AI变革的领头羊,已经和AGI(通用人工智能)概念绑定在了一起,所以它每次有大的技术改进都会引发相关的讨论。
回到技术的本质,我们还是要看看这轮o3的进步真的是通用智能吗?
其实11月底的两次直播中已经给出了判断:AI的进步从未停止,未来2年会是AI变革的关键时点,但AGI并不是这个发展曲线的简单延伸。
ARC-AGI 测试,由 Keras 的创始人 François Chollet 在 2019 年提出的,旨在评估 AI “学习” 能力。
ARC测试评分&成本
ARC-AGI 已经参与到了o3的性能测试中,创始人分享了测试结果,在第一版确实有惊人的成绩,如果用high档位正确率已经达到了88%,但他也提到面向即将更新的下一版本测试o3的正确率已经掉到了30%,聪明一些的人类则能做到95%。
更重要的是,o3在一些简单问题上反而效果很差。这不禁让我们反思,AI 的 “智能” 究竟是什么?
AI技术的核心要点是「学习」和「搜索」两个要素,此前的GPT范式拓展了学习的边界,现在的推理范式让AI有更多时间“思考”和“判断”,提供了更广阔的搜索空间,打开了技术进步的新窗口。
这是一个非常值得关注的新指标,但它绝不是观察AI进步和产业格局的唯一标杆。
OpenAI的大对头们
在 OpenAI 发布 o3 的同时,它的两大竞争对手谷歌和Anthropic也各自发布了新东西,在我们看来他们的动态更能帮助我们打开观察AI进化的新维度。
Anthropic发文分享了他们在构建Agent 方面的经验。他们强调,成功的 Agent 实现并不依赖于复杂的框架,而是通过简单、可组合的模式构建。
Anthropic 将 Agent 系统分为两种:工作流(Workflows)和 Agent。工作流是指通过预定义的代码路径协调 LLM 和工具的系统,而 Agent 则是指 LLM 动态地指导自身过程和工具使用的系统,自主地完成任务。
他们认为,构建 LLM 应用时,应尽可能选择最简单的解决方案,只有在必要时才增加复杂性,因为太复杂的框架化可能会导致成本增加和难以调试。
在现实世界中,一个简单的解决方案往往比复杂的方案更可靠,也更容易维护,也更符合AI进化的规律。
Google的动态更加直接,OpenAI的各路产品要么收费很贵,要么都是期货,我直接给你。
新一代 AI 模型 Gemini 2.0 Flash直接发布,并且能够直接使用。这款新模型能够进行高级推理,还能原生输出图像、语音、文本等多模态信息,是一位真正的 “全能选手”。
谷歌的做法不只是挑战OpenAI的领先地位,更重要的是他们证明了多模态、剪枝等技术仍然有巨大的潜力可挖。
OpenAI、Anthropic 和 Google 三家公司,代表了当前 AI 领域最前沿的技术方向,显然他们走在了相似又不同的道路上。
相似的是他们都在同一条路径上竞争,不同的是OpenAI开始加注推理方向,Anthropic则向Agent生态布局,谷歌开始砸重金全都要。
从他们三家身上,我们才能看到更全面些的产业图景:
2025年AGI百分百不会来,2025年AI百分百会迎来更波澜壮阔的时代,推理、多模态、Agent齐头并进,会有更多的新东西值得关注。
如果你还想了解更多最新、最详细的科技产业解读,欢迎长按下方二维码,加入前哨科技特训营。
↓点击加入,学会用AI为你工作(iOS用户请在电脑端打开)
↓¥399,掌握王煜全AI产业预测精华(iOS用户请在电脑端打开)
↓全球消费电子展,王煜全与你现场看未来(扫码加入)
此外,我们还为您准备了一份清单
“近期市场相关刺激政策一览表”
热门跟贴