谷歌发布量子芯片Willow，OpenAI还在挤牙膏式发布会|openai|埃隆_马斯克|知名企业|谷歌|量子计算机

就在OpenAI举行连续12天的发布会时，谷歌震撼性地发布了量子芯片Willow，震惊世界，其声称在一个标准基准计算任务，Willow用时不到5分钟（300秒）神速完成。

而原来世界上最快超算Frontier要完成同样任务，则需要10亿亿亿年，也就是10,000,000,000,000,000,000,000,000年。这是一个天文数字，甚至超过了宇宙的年龄（138亿年）！

不过大家也不用恐慌量子计算会马上颠覆一切，原来量子计算的挑战主要是精确度，简单理解就是，计算快，但误差也高，如今终于克服了近30年的纠错问题，芯片的计算误差也呈指数级下降，有很大进步了，但离真正的概念中的量子计算机还有一段距离。

芯片的发布无疑在硅谷引发了一场科技海啸，还在发布会中的OpenAI CEO 山姆奥特曼第一时间送上祝贺。谷歌CEO劈柴对此回应：量子计算+AI的多重宇宙即将带来，也恭喜o1大模型发布！

此外，劈柴还和马斯克联动了起来，他说未来可以借助星舰在外太空搞一个量子计算集群。马斯克回复说这是有可能的，并提到了要实现卡尔达舍夫第二型文明所需的能源。

如果说量子计算机还有点遥远，但AI大模型的更新是离我们很近的，我们来看看OpenAI连续几天的发布会到底发布了什么？OpenAI未来是要彻底商业化运作了吗？

意外但不够惊艳的发布会

01 模型仍然是常规更新

OpenAI好像很久都没有大动作了，距离Sora的第一次亮相已经过去了294天，距离ChatGPT语音版发布已经过去了205天，o1前瞻版的发布也已经是九月的事了。不是说好的AI元年吗？怎么热度反倒是倒过来的？

今年上半年Claude 3.5 Sonnet 俨然已经成为目前评价最好的模型、谷歌正式上架 Veo 视频生成模型，还有刚发布的 Genie 2 世界模型，以及李飞飞的世界模型都走上台前获得了不低的关注度。

OpenAI这个时候自然需要“反击”，来证明自己“AI一哥”的身份，OpenAI不是老了只是大招还在后面。

Sam Altman指出新版o1在处理复杂问题时的重大错误率降低了34%，而且能根据题目的难易程度调节处理时间，困难的题可能做几分钟，但简单题目仅需几秒。这使得用户等待时间下降超过50%。Sam Altman紧接着给出了它的表现数据。o1在国际数学奥林匹克预选赛题目（AIME 2024）中拿到了83%的正确率，把GPT-4o那可怜巴巴的13%甩得连尾灯都看不见了，比起o1 -preview的56.7%也提升了将近一半！

如下图所示，o1 Pro 仅用时 6 分 48 秒就成功解答了 2006 年国际数学奥林匹克竞赛（IMO）的第三题——当年公认难度最高的题目。

2006 年全球约 500 名 19 岁以下的顶尖数学学生中，仅有 28 人能够完全解答此题……他们拥有 4 个半小时的时间来攻克……而 6 名美国队成员中无一人能够解决这个问题……网友们尝试使用其他所有模型（包括 o1）来解决这个问题，结果 o1 Pro 是唯一一个大语言模型给出了正确答案，也是目前推理最强的大语言模型。

ChatGPT Pro 订阅计划将允许用户无限制访问 o1、o1-mini、GPT-4o 以及高级语音模式，还包括一个仅供 Pro 用户使用的 o1 版本，也就是o1 pro 模式。但200美元一个月的价格也足以劝退大部分普通用户，有业内人士指出想过很涨价但没想到会涨这么多，如果你提不出专业的问题和具体且特别的需求，买这个会员就是在浪费钱。

不断细分的GPT模型往好处说是为了更好满足不同需求的用户，但经历过国内互联网手机和车圈大战的人，应该能很快明白这是什么意思。更多产品对应具体需求这不假，但本质上是在争取已经存量化的细分市场，以至于要出各种不同名头的产品。这并非不行，但这跟OpenAI宣称的未来是属于AI的世界，距离恐怕有点远。

02 Sora Turbo正式上线

在OpenAI 12天发布会的第三天，终于放出了一个像样的大招。OpenAI 在 X 平台表示，自 2 月份以来，他们一直在构建 Sora Turbo，后者是一个速度明显更快的模型版本，今天也将其作为独立产品向Plus 和 Pro 用户开放。

在 Sora Turbo「Library」中，用户可以保存自己喜欢或有用的提示词，以便未来使用。并且保存的提示词可以按需查看或修改，对于需要重复创作相似内容的用户，无疑能大大提高效率。在工作流方面，Sora 的编辑功能是区别于其它竞品的重要亮点。比如说，在 Remix 功能中，用户可以利用纯自然语言提示词对视频进行编辑，并通过简单的「strength（强度）」选项和滑块来控制生成的变化程度。

在技术规格上，Sora Turbo支持 5-20 秒的视频生成，并兼容 1:1、9:16 等主流宽高比。相比早期版本，现在的生成速度有了显著提升。

有趣的是，由于 Sora Turbo热度太高，大批用户涌入体验网站，导致该网站一度崩溃，停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户：由于需求超出预期，我们将不得不间歇性地关闭新用户注册，并且生成内容的速度会在一段时间内减慢。我们正在全力以赴！

生成视频贵这是行业内的普遍共识，但没想到这次Sora Turbo贵的超乎想象，连两百美元的会员都不能自由生成。对于订阅用户而言，20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度（1000 积分），支持最高 720p 分辨率和 5 秒时长。而200 美元的 ChatGPT Pro 计划则提供最多 500个优先视频（10000 个积分），支持最高 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

虽然官方博客中提到，Sora Turbo用了一种新的扩散模型，它通过从一段看起来像静态噪声的基础视频开始，逐步去除噪声并转变为最终的视频。通过同时处理多个帧，模型成功解决了一个难题：即使目标暂时脱离视野，也能确保其在视频中始终保持一致。

比如画面中门的开向各开各的

但生成视频共有的一些毛病他还是有的，在物理模拟方面，模型对物体运动的理解还不够深入，常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时，经常出现前后腿位置混乱的情况，导致动作看起来不自然。

又或者，某些视频生成结果看起来像是慢动作，而视频的其他部分则以正常速度播放，肉眼很容易察觉这种「别扭」。简言之，Sora 还是没能解决老毛病，缺乏对物理世界规律的理解。另外，Sora 没能解决文字生成的问题，导致经常出现文字混乱的现象。

笔者认为这次Sora Turbo最大更新恐怕是对产权的明晰，官方博客中写道，未经他人许可使用他人肖像，并禁止描绘真实未成年人；禁止创建非法内容或侵犯知识产权的内容；禁止生成有害内容，例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容，或旨在传播暴力、仇恨或使他人痛苦的内容；创建并传播用于欺诈、诈骗或误导他人的内容。

所有 Sora Turbo生成的视频都带有 C2PA 元数据，这些元数据能够标识视频的来源，从而提高透明度，并可用于验证其来源。这些动作或许可以应对一些新闻媒体和艺术家对OpenAI的侵权起诉，可能有助于AI视频和内容快速走向商业化。

OpenAI也要把商业化放在第一位了

正如我们这次的标题所言OpenAI最新发布会，很意外、很昂贵、很着急。论技术力OpenAI仍然是行业第一这没有问题，但技术和美好的愿景并不足以解决所有问题，能够正常商业运作且有盈利可能的产品才能活得更久。

OpenAI在接受FT财经网采访时表示，他们制定了明年冲击 10 亿活跃用户的目标，现在 ChatGPT 的周活在 2.5 亿左右；完全不线性的增长预期，建立在和苹果的合作上，iPhone 的全球活跃设备超过 20 亿台，这会是成为搭便车的最好机会；OpenAI 给投资者画大饼时也表示，达到 10 亿活跃用户，才能拿到和 Meta、Google 上同一张牌桌的入场券；OpenAI 今年的收入突破了 40 亿美金，但同时创造了 50 亿美金以上的成本，亏损压力难以忽视；API 业务对收入贡献很大，但利润很低，来自 C 端用户的直接订阅才是最赚钱的，这也是 OpenAI 对提高活跃用户规模兴趣甚高的原因。

OpenAI 首席财务官 Sarah Friar 在接受《金融时报》采访时表示："到 2025 年，我们将从一家服务数百万用户的研究实验室，发展成为服务全球数十亿消费者的科技巨头。"这家成立九年的创业公司正在向全球科技巨头转型，为公司创始人兼 CEO Sam Altman 所描绘的"智能时代"做好准备。

OpenAI从非盈利组织转向盈利的大公司几乎是可以确定的事，改变世界很美好但在这之前他们要先活下来。

不过OpenAI的大饼真的能这么顺利实现吗？

OpenAI 新任政策主管 Chris Lehane 透露，公司计划在美国中西部和西南部地区建设数据中心集群，以支持未来发展。这一自建 AI 基础设施的战略，与 Google 和 Amazon 等科技巨头的做法如出一辙。Lehane 指出，在 AI 竞争中，"芯片、数据和能源"是取得成功的三大关键要素。但问题在于OpenAI并不比这些大公司在芯片、数据和能源上拥有太多优势。

iPhone用户虽然全球有20亿活跃设备，但支持AI功能的只有最近两年的产品，AI本地化是苹果一直倡导的，未必会支持用户去购买功能更为复杂成本更高的01模型或者Sora Turbo。而且苹果自家AI也一直在追赶，能用自己的未来肯定会用自己的，搭便车可没想象中那么容易。

OpenAI对AGI五个阶段定义如下：1）L1：聊天机器人（Chatbots），具备对话能力的AI；2）L2：推理者（Reasoners），具备人类的推理水平能解决很多复杂难题；3）L3：智能体（Agents），不只是推理，还能执行全自动化业务的智能体；4）L4：创新者（Innovators），能协助人类完成新发明的AI；5）L5：组织（Organizations），可以自动执行组织全部业务的AI。

据新浪科技，2024年中旬，OpenAI评估自己处于L1阶段，而这次超长发布会后，笔者认为OpenAI有望在此次发布会后进入L2阶段和L3初级阶段，01模型的推理能力已经毋庸置疑，智能体（Agents）也有望在这次发布会出现。

Agent可帮忙寻找营销线索、推送潜在客户、进行初期产品沟通等，带来实际收入，所以大家愿意买单。Agent的核心是大模型的推理能力（链式推理、多步推理能力），它能把复杂事情拆解成多步，若多步推理能力不足，AI成功率很低。国内已经有大模型在推送Agent服务，或许OpenAI这次能提供不一样的东西。