打开网易新闻 查看精彩图片

两家AI公司的新模型发布时间差不到24小时。Anthropic刚推Claude Opus 4.6,OpenAI就甩出GPT-5.3-Codex。这种撞车节奏,像极了手机发布会扎堆的九月。

我们决定做个实验:让两个模型各自独立开发同一个网站,测试它们在真实任务里的表现差异。网站主题选了一个经典心理学现象——锚定效应。就是那个让你先想一个随机数字,再猜非洲有多少联合国成员国的把戏。

先做个现场测试。你在心里随便想一个1到100之间的数字。想好了?现在估计一下:非洲国家里有多少个联合国成员国?

如果你的随机数字偏高,比如78,你的估计大概率也会跟着往上飘。如果偏低,比如13,估计就会保守很多。第一个数字像船锚一样,把后续判断拽向自己。这个实验只需要一个极简网页就能复现,丢给同事或朋友就能批量收集数据。

我们给两个模型的Prompt完全一致

我们给两个模型的Prompt完全一致

任务要求很具体:做一个双问题网站,第一题输入1-100数字(带校验),第二题猜非洲联合国成员国数量(0-1000,带校验)。要防重复提交,要有管理员后台看统计图表,要能开关答题会话,还要生成随机测试数据。最后还要做相关性分析,验证锚定效应是否存在。

Claude这边我们用了VS Code插件,第一步切到规划模式。这个设计很聪明——Claude会先拆解任务、理清依赖,而不是直接开始写代码。虽然Prompt明确要求"新建网站",Claude还是花了不少篇幅讨论技术选型:用React还是纯HTML?数据存本地还是上数据库?

GPT-5.3-Codex走的是另一条路。它几乎没问问题,直接开始生成文件结构。这种差异从第一分钟就很明显:一个像开会讨论方案,一个像工程师拿到需求就拆键盘。

Claude的"过度思考"与Codex的"直接开干"

Claude的"过度思考"与Codex的"直接开干"

打开网易新闻 查看精彩图片

Claude的规划阶段持续了相当长的对话轮次。它反复确认:用户认证怎么做?图表库选哪个?会话状态用localStorage还是服务端?这些讨论本身有价值,但对于一个明确说"small application"的需求,显得有点隆重。

Codex的输出节奏快得多。它把项目拆成前端、后端、数据库三层,代码文件一个接一个蹦出来。但快也有代价——它漏掉了Prompt里的几个细节:相关性分析的逻辑、测试数据生成器、会话历史记录。这些得靠后续追问补全。

两个模型都完成了核心功能。Claude的版本代码结构更规整,注释更详细,但交付时间明显更长。Codex的版本能更快跑起来,但得手动填几个坑。

一个有趣的细节:Claude主动建议用Chart.js做图表,还解释了为什么散点图比折线图更适合展示相关性。Codex直接上了折线图,双Y轴设计——直观,但统计上不够严谨。

代码质量之外,真正的差距在交互设计

代码质量之外,真正的差距在交互设计

我们让两个模型各自解释自己的设计决策。Claude写了一段很长的说明,讲为什么把管理员入口藏在URL参数里、为什么用JWT做简易认证。Codex的说明只有三行:功能清单、启动命令、文件结构。

这种差异反映了训练目标的不同。Claude显然被优化过"解释自己"的能力,适合需要文档和协作的场景。Codex更像一个执行工具,输出即答案,少废话。

实际部署测试时,Claude的版本在移动端适配上有小问题——图表溢出容器。Codex的版本表单验证逻辑有漏洞,输入小数能通过校验但会导致后端报错。两个都不是完美交付。

管理员后台的数据可视化部分,Claude做了散点图+趋势线,还加了皮尔逊相关系数的计算。Codex只做了双折线图,相关性得靠肉眼判断。Prompt里明确要求"correlation analysis",这一点上Claude得分。

打开网易新闻 查看精彩图片

一个被忽略的细节:测试数据生成

一个被忽略的细节:测试数据生成

Prompt要求"生成随机测试数据",两个模型的理解完全不同。Claude生成了一套符合锚定效应假说的数据:高随机数对应高估计值,低随机数对应低估计值,相关系数0.6左右。它甚至加了噪声,让数据看起来真实。

Codex生成的数据是纯随机的,两个问题的答案毫无关联。技术上没错,但违背了实验目的——你需要假数据来验证图表和统计功能是否正常,而不是制造一堆噪音。

这个分歧很说明问题。Claude似乎"理解"了锚定效应是什么,知道数据应该呈现什么模式。Codex只看到了"随机"两个字。

我们后来补问了Codex:能不能生成符合锚定效应的数据?它立刻照办,还解释了怎么调整参数控制相关强度。所以不是做不到,是第一次没往那个方向想。

开发者该选哪个?

开发者该选哪个?

这取决于你的 workflow。Claude适合需要反复讨论、逐步精化的项目——比如你不确定技术方案,想先 brainstorm 几轮。它的规划模式确实能减少返工,但前期等待时间更长。

Codex适合目标明确、快速原型的场景。给它清晰的需求,它能以分钟为单位交付可运行的代码。但你需要自己检查边界情况,它不会主动提醒你"这里可能有坑"。

价格层面,Claude Opus 4.6的输入token成本是Codex的3倍左右。对于这个小项目,差距几毛钱;放大到生产环境的代码库,账单会差出一个数量级。

两个模型都还在进化。Anthropic最近强化了Claude的代码能力,OpenAI则把Codex从ChatGPT里单独拆出来,做成面向开发者的专用工具。这场较量没有终局,只有下一版更新。