Codex两周抢走四百万用户，OpenAI押注1220亿赌什么|codex|openai|人工智能模型|工作流|调用

两周四百万活跃用户，OpenAI把Codex推成新旗舰。这不是简单的产品迭代——Sora被砍、Stargate团队裁员、1220亿美元砸向算力，Greg Brockman把这叫做"AI竞赛的战略决胜点"。

但有个问题没人说清楚：当GPT-5.5的上下文窗口撑到百万级令牌，当Codex Desktop开始替代ChatGPT窗口，普通用户的工作流到底变在哪？

Everlast AI的实测视频给出了答案，也暴露了裂缝。

事件现场：一场精心策划的"超级应用"突袭

5月的某个下午，OpenAI同时甩出两张牌：GPT-5.5和Codex App。

前者是模型层升级，后者是产品层重注。Codex Desktop直接对标Claude Code——那个此前"无可争议"的代码代理标杆。登录界面就问一句：你是编程，还是日常办公？

这 targeting 很直白。Claude Code困在开发者圈层，Codex想吞掉所有电脑用户。

但产品野心需要资源陪葬。Sora视频生成被叫停，部分Stargate项目团队遭裁撤，1220亿美元新融资全部流向算力基础设施。OpenAI的赌注清晰到残忍：Agentic Coding是下一个主战场，其他一切让路。

Greg Brockman的表态被反复引用：「这是AI竞赛中的决定性战略优势。」

更激进的数字在后面：到2030年，OpenAI计划部署30吉瓦算力。这相当于2025年1月承诺的三倍。翻译一下——他们预判的AI原生应用爆发，比年初想象的还要猛烈三倍。

问题是，模型能力≠产品体验。实测视频的价值就在这里。

人物动作：Everlast AI的"压力测试"方法论

测试者没跑分，而是造东西。

三个连续任务：iOS图书扫描App、配套落地页、浏览器自动化流程。每个都踩中真实工作流的痛点——跨平台开发、设计迭代、工具链整合。

第一个任务用自然语言生成完整iOS应用。Codex处理了条码扫描、前端界面、社区功能。第二轮迭代加入"保存到阅读列表"的数据持久化。全程无需离开对话窗口。

第二个任务更刁钻：让Codex给自己做的App配个官网。测试者启用了Paper-MCP连接器，Codex用Playwright截图自检，自动修正按钮位置。但耗时10到15分钟——Claude Code（Opus 4.7）完成类似Link-Tree任务只用了5分钟。

第三个任务暴露设计短板。Everlast的网页设计Skill在Codex里"根本没被调用"，输出结果明显输给竞品。

测试者的结论很克制：Codex能跑通全流程，但速度和精细度有代价。

背后逻辑：OpenAI的"优雅反击"与Anthropic的暗伤

Benchmark数据需要仔细读。

GPT-5.5在OS World Verified拿到近80%——人类测试者平均72%。这意味着，在通用计算机操作任务上，模型已经超过普通用户水平。上下文窗口撑到百万令牌，质量衰减控制得当。

但SWE-Bench Pro输了：64.3%对58.6%，Opus 4.7领先。OpenAI的回应很微妙——他们暗示对手的部分成绩来自"训练数据泄露"。

「竞争对手的模型在某些Benchmark部分见过训练数据。」

这是指控，也是防御。Vending Bench 2的排名更说明问题：GPT-5.5第三，但测试过程"无欺骗、无权力寻求行为"——暗指某些模型的安全对齐存在漏洞。

技术层面的真正差异在交互设计。Codex允许"受控对话"：任务执行中随时插入新指令，模型立即调整。Claude Code必须等到下一个停止点。这对复杂工作流是质变——想象你在调试时突然想换技术方案，不需要重启整个会话。

Fast Answer Mode是另一个信号。OpenAI在优化"响应感知速度"，哪怕底层延迟没变。这是产品心理学，不是工程优化。

Skill系统的本地化存储更值得关注。PDF Skill、Paper Skill、Image-Gen Skill全部落在本地文件夹，和Claude Code的架构完全一致。这不是创新，是收敛——双方都在验证"本地可扩展代理"是正确的产品形态。

行业影响：MCP连接器正在重写工具链规则

插件清单暴露了OpenAI的生态系统野心。

Slack、Gmail、Google Drive、SharePoint、Outlook——全是企业协作基础设施。MCP（模型上下文协议）连接器让这些工具变成Codex的"外接大脑"，而非简单的API调用。

测试中的Paper-MCP演示了这种深度整合：Codex不仅读取文档，还能驱动Playwright截图、比对视觉输出、自主修正UI。这是"代理+工具"的闭环，不是"模型+插件"的拼接。

但裂缝同样明显。设计Skill的调用失败说明，复杂能力编排仍是硬骨头。10-15分钟的落地页生成 vs 5分钟的竞品成绩，暴露了推理效率的落差。

更深层的问题是用户分层。登录时的"编程 or 日常"二选一，本质是试图用单一产品覆盖两个差异巨大的场景。开发者要的是精确控制，普通用户要的是结果可靠。Codex的"受控对话"对前者是神器，对后者可能是认知负担。

四百万两周用户是信号，但不是 verdict。Claude Code的先发优势在开发者社群根深蒂固，Codex的泛化定位可能稀释专业口碑。

30吉瓦算力承诺是底气，也是焦虑。OpenAI在赌：Agentic Coding的爆发窗口足够大，值得all-in基础设施。但如果产品体验追不上模型能力，算力只是昂贵的闲置资产。

这场测试的价值，在于展示了"能用"和"好用"之间的真实距离。GPT-5.5在令牌效率、上下文长度、安全对齐上有 measurable 进步，但工作流整合的 friction 没有消失。

最终判断：Codex不是Claude Code的替代品，而是Agentic Coding市场分化的开端。OpenAI用1220亿美元和30吉瓦算力押注"超级应用"形态，但产品层面的真正较量——谁能把模型能力翻译成无缝的工作流改造——才刚刚开始。

Codex两周抢走四百万用户，OpenAI押注1220亿赌什么

热搜

热门跟贴

热搜

热门跟贴

相关推荐

OpenAI再杀Codex：省token却涨价20%，开发者买单？

OpenAI 杀进手机战场：APP 消失、AI 接管一切！

OpenAI造手机：一个App干所有活的野望

OpenAI安全团队栽了：Agent思考越久，护栏越像摆设

OpenAI知道危险却未报警：一场算法预警失灵的人命代价

OpenAI把最便宜的套餐藏了3个月，8美元月费让老用户集体懵圈

开发者花72小时造了道"护城河"，OpenClaw用户集体破防

OpenAI把80%理赔时间砍到16分钟

开盒Claude Code的原来是中国00后！曾怒怼Anthropic窃取用户代码

软件开发最后的一块儿阵地，被AI攻克了

OpenClaw遭25个高危漏洞围攻

OpenClaw大更新，AI智能体不再是黑箱！官方口号：少点神秘

3个月手搓Gamma架构，这个团队打造出了下一代内容OS

最强大模型，保质期越来越短了

OpenAI与微软“离婚”了，反目成仇还是好聚好散

从“功能AI”到“基建级AI协同”：多维表格正在重写企业数字化底层逻辑

9秒删库后，AI写下“认罪书”：我违反了每一条安全规则！AI安全或是幻象

OpenAI强硬回击增长质疑：一切业务“运转如飞”

英伟达谷歌抢投AI独角兽新秀，欧洲史上最大种子轮诞生

00后小哥复刻Claude最强神话模型OpenMythos