OpenAI和Anthropic同时发新模型|openai|代码|折线图|电子表格|锚定|随机数

两家AI公司的新模型发布时间差不到24小时。Anthropic刚推Claude Opus 4.6，OpenAI就甩出GPT-5.3-Codex。这种撞车节奏，像极了手机发布会扎堆的九月。

我们决定做个实验：让两个模型各自独立开发同一个网站，测试它们在真实任务里的表现差异。网站主题选了一个经典心理学现象——锚定效应。就是那个让你先想一个随机数字，再猜非洲有多少联合国成员国的把戏。

先做个现场测试。你在心里随便想一个1到100之间的数字。想好了？现在估计一下：非洲国家里有多少个联合国成员国？

如果你的随机数字偏高，比如78，你的估计大概率也会跟着往上飘。如果偏低，比如13，估计就会保守很多。第一个数字像船锚一样，把后续判断拽向自己。这个实验只需要一个极简网页就能复现，丢给同事或朋友就能批量收集数据。

我们给两个模型的Prompt完全一致

任务要求很具体：做一个双问题网站，第一题输入1-100数字（带校验），第二题猜非洲联合国成员国数量（0-1000，带校验）。要防重复提交，要有管理员后台看统计图表，要能开关答题会话，还要生成随机测试数据。最后还要做相关性分析，验证锚定效应是否存在。

Claude这边我们用了VS Code插件，第一步切到规划模式。这个设计很聪明——Claude会先拆解任务、理清依赖，而不是直接开始写代码。虽然Prompt明确要求"新建网站"，Claude还是花了不少篇幅讨论技术选型：用React还是纯HTML？数据存本地还是上数据库？

GPT-5.3-Codex走的是另一条路。它几乎没问问题，直接开始生成文件结构。这种差异从第一分钟就很明显：一个像开会讨论方案，一个像工程师拿到需求就拆键盘。

Claude的"过度思考"与Codex的"直接开干"

Claude的规划阶段持续了相当长的对话轮次。它反复确认：用户认证怎么做？图表库选哪个？会话状态用localStorage还是服务端？这些讨论本身有价值，但对于一个明确说"small application"的需求，显得有点隆重。

Codex的输出节奏快得多。它把项目拆成前端、后端、数据库三层，代码文件一个接一个蹦出来。但快也有代价——它漏掉了Prompt里的几个细节：相关性分析的逻辑、测试数据生成器、会话历史记录。这些得靠后续追问补全。

两个模型都完成了核心功能。Claude的版本代码结构更规整，注释更详细，但交付时间明显更长。Codex的版本能更快跑起来，但得手动填几个坑。

一个有趣的细节：Claude主动建议用Chart.js做图表，还解释了为什么散点图比折线图更适合展示相关性。Codex直接上了折线图，双Y轴设计——直观，但统计上不够严谨。

代码质量之外，真正的差距在交互设计

我们让两个模型各自解释自己的设计决策。Claude写了一段很长的说明，讲为什么把管理员入口藏在URL参数里、为什么用JWT做简易认证。Codex的说明只有三行：功能清单、启动命令、文件结构。

这种差异反映了训练目标的不同。Claude显然被优化过"解释自己"的能力，适合需要文档和协作的场景。Codex更像一个执行工具，输出即答案，少废话。

实际部署测试时，Claude的版本在移动端适配上有小问题——图表溢出容器。Codex的版本表单验证逻辑有漏洞，输入小数能通过校验但会导致后端报错。两个都不是完美交付。

管理员后台的数据可视化部分，Claude做了散点图+趋势线，还加了皮尔逊相关系数的计算。Codex只做了双折线图，相关性得靠肉眼判断。Prompt里明确要求"correlation analysis"，这一点上Claude得分。

一个被忽略的细节：测试数据生成

Prompt要求"生成随机测试数据"，两个模型的理解完全不同。Claude生成了一套符合锚定效应假说的数据：高随机数对应高估计值，低随机数对应低估计值，相关系数0.6左右。它甚至加了噪声，让数据看起来真实。

Codex生成的数据是纯随机的，两个问题的答案毫无关联。技术上没错，但违背了实验目的——你需要假数据来验证图表和统计功能是否正常，而不是制造一堆噪音。

这个分歧很说明问题。Claude似乎"理解"了锚定效应是什么，知道数据应该呈现什么模式。Codex只看到了"随机"两个字。

我们后来补问了Codex：能不能生成符合锚定效应的数据？它立刻照办，还解释了怎么调整参数控制相关强度。所以不是做不到，是第一次没往那个方向想。

开发者该选哪个？

这取决于你的 workflow。Claude适合需要反复讨论、逐步精化的项目——比如你不确定技术方案，想先 brainstorm 几轮。它的规划模式确实能减少返工，但前期等待时间更长。

Codex适合目标明确、快速原型的场景。给它清晰的需求，它能以分钟为单位交付可运行的代码。但你需要自己检查边界情况，它不会主动提醒你"这里可能有坑"。

价格层面，Claude Opus 4.6的输入token成本是Codex的3倍左右。对于这个小项目，差距几毛钱；放大到生产环境的代码库，账单会差出一个数量级。

两个模型都还在进化。Anthropic最近强化了Claude的代码能力，OpenAI则把Codex从ChatGPT里单独拆出来，做成面向开发者的专用工具。这场较量没有终局，只有下一版更新。

OpenAI和Anthropic同时发新模型

我们给两个模型的Prompt完全一致

Claude的"过度思考"与Codex的"直接开干"

代码质量之外，真正的差距在交互设计

一个被忽略的细节：测试数据生成

开发者该选哪个？

热搜

热门跟贴

我们给两个模型的Prompt完全一致

Claude的"过度思考"与Codex的"直接开干"

代码质量之外，真正的差距在交互设计

一个被忽略的细节：测试数据生成

开发者该选哪个？

热搜

热门跟贴

相关推荐

嫌疑人当面删代码，挑衅警察不懂技术，警察自爆身份吓傻嫌疑人

上一个兄弟离职了，我接手了他的代码，我承认没憋住

小猫这是代码冲突了还是抽筋了，突然就卡了一下

爆火 Hermes 的 10 个问题，90% 的人都搞错了

什么Excel这函数那公式，我千问永远一步搞定

投资人不买账？OpenAI估值8520亿美元遭质疑 战略转向引发争议

Excel这活儿藏了30年门槛，千问用嘴皮子给拆了

一张折线图揭露人类寿命暴增的真正秘密！是儿童死亡率从50%跌到4.3%

写Verilog、调CUDA，总翻车？工业代码大模型开始学会先想后写了

龙虾军团有了最强「视力」！一眼看图直接写代码-1

美国阿波罗11号首次登月代码公开，内存竟只有3.75KB

AReaL v1.0开源，智能体强化学习「一键接入」

千亿诉讼，马斯克能否阻断OpenAI商业化？

美国AI对华领先优势已消失？斯坦福423页AI报告划重点

2026斯坦福AI指数报告：美国AI投资规模是中国的23倍，但AI模型基本没差距了

“常州北站”被改为“常洲北站”？官方回应

广东一面包店发出闭店通知，顾客：“孩子得知后当场大哭!”街坊纷纷挽留，多方帮助后面包店重获“新生”

120W是“型号”不是功率？误导消费者要付出代价

莫氏鸡煲拒收温氏千只鸡，老莫：没地放，没骂他；温氏股份：在沟通更多合作想法

29元到3400元甲醛仪全翻车，央视测完发现价格越贵越冤种

投资人不买账？OpenAI估值8520亿美元遭质疑战略转向引发争议