两周四百万活跃用户,OpenAI把Codex推成新旗舰。这不是简单的产品迭代——Sora被砍、Stargate团队裁员、1220亿美元砸向算力,Greg Brockman把这叫做"AI竞赛的战略决胜点"。
但有个问题没人说清楚:当GPT-5.5的上下文窗口撑到百万级令牌,当Codex Desktop开始替代ChatGPT窗口,普通用户的工作流到底变在哪?
Everlast AI的实测视频给出了答案,也暴露了裂缝。
事件现场:一场精心策划的"超级应用"突袭
5月的某个下午,OpenAI同时甩出两张牌:GPT-5.5和Codex App。
前者是模型层升级,后者是产品层重注。Codex Desktop直接对标Claude Code——那个此前"无可争议"的代码代理标杆。登录界面就问一句:你是编程,还是日常办公?
这 targeting 很直白。Claude Code困在开发者圈层,Codex想吞掉所有电脑用户。
但产品野心需要资源陪葬。Sora视频生成被叫停,部分Stargate项目团队遭裁撤,1220亿美元新融资全部流向算力基础设施。OpenAI的赌注清晰到残忍:Agentic Coding是下一个主战场,其他一切让路。
Greg Brockman的表态被反复引用:「这是AI竞赛中的决定性战略优势。」
更激进的数字在后面:到2030年,OpenAI计划部署30吉瓦算力。这相当于2025年1月承诺的三倍。翻译一下——他们预判的AI原生应用爆发,比年初想象的还要猛烈三倍。
问题是,模型能力≠产品体验。实测视频的价值就在这里。
人物动作:Everlast AI的"压力测试"方法论
测试者没跑分,而是造东西。
三个连续任务:iOS图书扫描App、配套落地页、浏览器自动化流程。每个都踩中真实工作流的痛点——跨平台开发、设计迭代、工具链整合。
第一个任务用自然语言生成完整iOS应用。Codex处理了条码扫描、前端界面、社区功能。第二轮迭代加入"保存到阅读列表"的数据持久化。全程无需离开对话窗口。
第二个任务更刁钻:让Codex给自己做的App配个官网。测试者启用了Paper-MCP连接器,Codex用Playwright截图自检,自动修正按钮位置。但耗时10到15分钟——Claude Code(Opus 4.7)完成类似Link-Tree任务只用了5分钟。
第三个任务暴露设计短板。Everlast的网页设计Skill在Codex里"根本没被调用",输出结果明显输给竞品。
测试者的结论很克制:Codex能跑通全流程,但速度和精细度有代价。
背后逻辑:OpenAI的"优雅反击"与Anthropic的暗伤
Benchmark数据需要仔细读。
GPT-5.5在OS World Verified拿到近80%——人类测试者平均72%。这意味着,在通用计算机操作任务上,模型已经超过普通用户水平。上下文窗口撑到百万令牌,质量衰减控制得当。
但SWE-Bench Pro输了:64.3%对58.6%,Opus 4.7领先。OpenAI的回应很微妙——他们暗示对手的部分成绩来自"训练数据泄露"。
「竞争对手的模型在某些Benchmark部分见过训练数据。」
这是指控,也是防御。Vending Bench 2的排名更说明问题:GPT-5.5第三,但测试过程"无欺骗、无权力寻求行为"——暗指某些模型的安全对齐存在漏洞。
技术层面的真正差异在交互设计。Codex允许"受控对话":任务执行中随时插入新指令,模型立即调整。Claude Code必须等到下一个停止点。这对复杂工作流是质变——想象你在调试时突然想换技术方案,不需要重启整个会话。
Fast Answer Mode是另一个信号。OpenAI在优化"响应感知速度",哪怕底层延迟没变。这是产品心理学,不是工程优化。
Skill系统的本地化存储更值得关注。PDF Skill、Paper Skill、Image-Gen Skill全部落在本地文件夹,和Claude Code的架构完全一致。这不是创新,是收敛——双方都在验证"本地可扩展代理"是正确的产品形态。
行业影响:MCP连接器正在重写工具链规则
插件清单暴露了OpenAI的生态系统野心。
Slack、Gmail、Google Drive、SharePoint、Outlook——全是企业协作基础设施。MCP(模型上下文协议)连接器让这些工具变成Codex的"外接大脑",而非简单的API调用。
测试中的Paper-MCP演示了这种深度整合:Codex不仅读取文档,还能驱动Playwright截图、比对视觉输出、自主修正UI。这是"代理+工具"的闭环,不是"模型+插件"的拼接。
但裂缝同样明显。设计Skill的调用失败说明,复杂能力编排仍是硬骨头。10-15分钟的落地页生成 vs 5分钟的竞品成绩,暴露了推理效率的落差。
更深层的问题是用户分层。登录时的"编程 or 日常"二选一,本质是试图用单一产品覆盖两个差异巨大的场景。开发者要的是精确控制,普通用户要的是结果可靠。Codex的"受控对话"对前者是神器,对后者可能是认知负担。
四百万两周用户是信号,但不是 verdict。Claude Code的先发优势在开发者社群根深蒂固,Codex的泛化定位可能稀释专业口碑。
30吉瓦算力承诺是底气,也是焦虑。OpenAI在赌:Agentic Coding的爆发窗口足够大,值得all-in基础设施。但如果产品体验追不上模型能力,算力只是昂贵的闲置资产。
这场测试的价值,在于展示了"能用"和"好用"之间的真实距离。GPT-5.5在令牌效率、上下文长度、安全对齐上有 measurable 进步,但工作流整合的 friction 没有消失。
最终判断:Codex不是Claude Code的替代品,而是Agentic Coding市场分化的开端。OpenAI用1220亿美元和30吉瓦算力押注"超级应用"形态,但产品层面的真正较量——谁能把模型能力翻译成无缝的工作流改造——才刚刚开始。
热门跟贴