OpenAI推出重磅o3推理模型，是遥遥领先，还是持续“画饼”？|chatbot|openai|大模型|推理模型|智能体|知名企业|谷歌

图片来源：视觉中国

蓝鲸新闻12月23日讯（记者朱俊熹）在"双十二"活动的最后一天，OpenAI终于扔下重磅：o3推理模型。当地时间12月20日发布的o3模型，是9月推出的o1推理模型的下一代。为避免与英国电信运营商O2发生版权或商标冲突，OpenAI选择跳过o2并直接将新模型命名为o3。

继谷歌前一天发布推理模型后，OpenAI很快释出最新的o3模型，似乎想要证明自己在模型层面依然保持领先身位。

据OpenAI介绍，o3能够进行复杂任务的推理，在科学、编码、数学等领域的表现要优于前一代o1模型，同时花费的处理时间也会更长。以一项评估AI高级数学推理能力的测试EpochAI Frontier Math为例，以往所有模型都未达到2%的准确率，而o3准确率达到了创纪录的25%。

o3模型让OpenAI在通往AGI的道路上又迈前了一步。在相关基准测试ARC-AGI中，高配版o3得分为87.5%，低计算设置下o3得分为75.7%，是o1模型的三倍。但高计算模式需要花费极其昂贵的成本，每个任务高达数千美元，低计算模式则需要20美元左右。

"我并不认为o3就是AGI。o3在一些非常简单的任务上仍然失败，表明它与人类智能存在根本差异。"ARC-AGI测试创建者François Chollet表示。他们依然能创建具有挑战性且未被充分测试的基准，而当设计出对普通人容易但对AI难的任务变得不可能时，才意味着AGI的真正到来。

OpenAI称，较小版本的o3-mini将于明年1月底推出，随后推出完整版o3。OpenAI正为安全研究人员开放申请流程，邀请他们抢先体验o3模型，作为现有测试流程的补充。

回顾OpenAI"双十二"：期货大放出，产品更新缺乏新意

一位AI从业者在跟完OpenAI连续12个工作日的直播后直呼失望。"OpenAI只是在不停地填过去的坑。o3模型的发布仍然是一个‘画饼’行为，要在实际使用之后，才能确定它到底怎么样。"他对蓝鲸新闻表示。

与以往一小时内快节奏、高密度的新品发布会不同，此次活动的每日直播时长在10到20分钟不等，观感上也缺少了一些震撼的感觉。CEO Sam Altman仅出现4次，除去o3模型发布日，其他场次大多在上线之前的期货，包括完整版o1模型、视频生成模型Sora、在苹果中正式接入ChatGPT等。

在12月5日活动首日，OpenAI发布了推理模型o1的正式版本，并于第二天围绕该模型推出了强化微调功能。普通用户如想无限制访问o1、o1 pro在内的所有模型，需每月花费200美元，购买最新的付费套餐ChatGPT Pro。此前ChatGPT基础付费服务为每月20美元。在接受彭博社采访时，OpenAI首席财务官Sarah Friar并未否认未来ChatGPT订阅费用将可能升至2000美元/月，"如果它真的能帮助我在做任何事情时都拥有一个博士级的助手"。

OpenAI的新技术从发布到正式可用之间通常存在一定的等待时间，最具代表性的就是其视频模型Sora。12月9日，Sora在发布298天后终于正式上线，因大量用户涌入Sora网站，一度导致服务器被迫暂时关闭。

Sora沉寂期间，视频生成赛道出现了大量追赶者。如国外的谷歌、Runway、Luma AI，以及国内的快手、字节跳动、腾讯、生数科技、爱诗科技等公司都发布了视频模型。有AI视频创作者告诉蓝鲸新闻，从视频底层模型和生成质量来看，并未感觉到Sora与可灵、即梦、海螺等国产模型有明显差距，甚至在性价比上还稍显逊色。

在此轮"双十二"活动中，OpenAI还推出了七个月前演示过的实时视频功能，并向所有ChatGPT用户开放了10月推出的搜索服务。在5月发布GPT-4o时，OpenAI曾预览了具备实时视频和屏幕共享功能的高级语音模式，此后却多次推迟上线。而ChatGPT Search在刚推出时，仅面向部分付费用户开放。

除了上线期货，OpenAI也围绕着用户体验提升、产品优化作出了多项更新。例如在活动第四日，OpenAI将Canvas的使用权限由付费用户扩展至所有用户，该工具主要用于和ChatGPT合作进行写作与编码。OpenAI还在ChatGPT中新增了"项目"功能，便于用户自行创建文件夹，将对话、文档等各种功能集中到一处。

但这些产品功能并非由OpenAI首创，事实上早在几个月前，其最大竞争对手、AI初创企业Anthropic就推出过类似的功能。有AI从业者表示，从用户体验、交互设计上看，Anthropic的AI助手Claude会呈现出更积极的创新姿态，OpenAI更像是参照着竞争对手来完善ChatGPT这一产品。

前十一天直播过后，一些质疑的声音开始越来越大：OpenAI是否因为模型迭代遭遇瓶颈，才更多地转向了对现有应用的完善。对此，字节跳动旗下云服务平台火山引擎的总裁谭待在近期一场媒体群访中表示，OpenAI最初就是一家在技术和应用方面都表现出色的公司，大模型的火爆正是源于ChatGPT产品的发布。而技术和应用是齐头并进的，随着模型的提升，应用的形态也会不断发生变化，不仅仅是chatbot（聊天助手）。

收官日放出的o3模型再次表明，OpenAI这家AI领军者在进一步转向新的推理范式，以期解决Scaling Law收益递减、预训练数据短缺等困难。

推理、视频、搜索，谷歌正面狙击OpenAI

在争抢公众关注焦点方面，OpenAI和巨头谷歌早有纠葛。今年5月，OpenAI恰好在谷歌I/O开发者大会前一天举办发布会，用多模态大模型GPT-4o抢尽风头。在此次OpenAI"双十二"活动期间，双方再度正面对垒。谷歌先后发布多项重大更新，包括量子芯片Willow、新一代大模型Gemini 2.0、推理模型、视频和图像模型等。

当地时间12月11日，谷歌推出了Gemini 2.0 Flash实验版本，是其2.0系列的首个模型。据谷歌介绍，相较于前代模型，Gemini 2.0 Flash具备低延迟和增强性能，在多项基准测试中表现领先。除了支持图像、视频和音频等多模态输入外，该模型还支持多模态输出。目前实验模型已向所有Gemini用户开放，完整版本将于明年1月全面上市。

谷歌母公司Alphabet首席执行官Sundar Pichai在博客中指出，Gemini 2.0这一"迄今功能最强大的模型"是为智能体时代构建的。借助新的多模态进展以及各种原生工具，能够打造全新的AI智能体，更接近通用助手的愿景。"如果说Gemini 1.0的核心是组织和理解信息，那么Gemini 2.0的目标就是让信息更加有用。"他表示。

同步推出的还有谷歌正在探索的一系列智能体项目。此前曾预览过的Project Astra基于Gemini 2.0迎来更新，该智能体支持高级视觉和语音交互，现在语言能力、工具属性、记忆能力都得到了升级，谷歌还预告将在原型眼镜上对其进行测试。除此之外，谷歌还介绍了能像人类一样使用网站的智能体Project Mariner，以及一款编码智能体Jules。

AI智能体正成为国内外大模型公司押注的主流方向。Anthropic在10月推出了能够接管人类计算机的智能体，可执行解释屏幕内容、输入文本、浏览网站等任务。国内方面，百度、字节、腾讯等大厂和智谱AI等创企也在加码布局智能体。尽管此前曾传出OpenAI正在准备类似Anthropic的智能体，但并未如公众预期般，在此次连更活动中就亮相。

"就在你以为一切都结束了的时候……我们推出了Gemini 2.0 Flash Thinking。"谷歌AI Studio产品负责人Logan Kilpatrick在社交平台X上表示。当地时间12月19日，谷歌释出其首个推理模型，在Gemini 2.0 Flash之上能够运用思维来强化其推理能力。"这只是我们推理之旅的第一步。"Logan Kilpatrick称。

从评测结果上看，谷歌的推理模型在Chatbot Arena基准测试中超越了OpenAI的GPT-4o、o1-preview以及Anthropic的Claude 3.5 Sonnet等模型。但当记者在谷歌AI Studio中试用时，询问"Strawberry里有几个r"，该模型还是给出了错误的回答。

图片来源：Google AI Studio截图

为正面狙击OpenAI，谷歌在Sora上线一周后发布了新一代视频模型Veo 2和升级后的图像生成模型Imagen 3。理论上，Veo 2可生成分辨率达4k、两分钟或以上的视频，但目前在谷歌平台上仅支持生成720p、时长8秒的视频。相较而言，ChatGPT Pro付费用户可通过Sora生成1080p、最长20秒的视频。

此外，在谷歌霸主地位最凸显的搜索领域，ChatGPT Search一度被认为极具威胁性，相关动态消息多次拉低谷歌股价。作为应对，谷歌推出了"AI Overviews"概率功能，但因生成低质量结果频频翻车。据硅谷科技媒体The Information最新报道，谷歌正计划为其数十亿搜索用户提供切换到AI模式的选项，这种模式与AI助手Gemini几近相同，以此来应对ChatGPT、AI搜索引擎Perplexity等竞争对手的冲击。

AI战局瞬息万变，抢先入局者并不一定能始终保持领先。在国内，字节跳动向来被认为面对AI反应迟缓，但凭借雄厚财力和顶尖人才，字节已呈现出赶超的趋势。谷歌也曾被诟病错失了AI竞赛先机，这一科技巨头又是否会最终迎来赶超OpenAI的机会呢？