一个云架构工程师用三大顶流模型给爸妈的补习班重做网站,结果在最基础的「多页面跳转」上卡了整整7小时——还得靠人类自己收尾。

这事发生在日本农村。作者本职是云计算基础设施,技术背景够硬。但他想测试的是:如果把AI当成「主开发搭档」,能走多远?

打开网易新闻 查看精彩图片

他拉来了三个模型分工协作:Gemini当战略顾问、Claude当主力开发、Codex管界面设计。听起来像梦之队,实际踩的坑一个比一个具体。

三模型分工:理想很丰满

作者给每个AI定了明确角色。

Gemini负责前期策划。网站结构怎么排、信息怎么组织,全靠它出方案。作者把它定位为「策略顾问」,专门处理架构层面的脑力活。

Claude是代码主力。作者的原话是:「速度快得惊人,代码生成又准又狠。」单页面网站几秒钟就搭出来了,质量还很高。

Codex专攻视觉。这里有个关键细节:目标用户是「年轻妈妈」。Codex生成的设计被评价为「完美击中这个群体」——更亲切、更现代,比Claude的默认审美对味。

三阶段推进也很清晰:先做单页验证可行性,再让Codex优化视觉,最后拆成多页面结构。前两步顺风顺水,第三步直接撞墙。

7小时噩梦:多页面成AI盲区

把网站从1页拆成7页,听起来是基础操作。作者在这上面耗了7小时,中间还睡了一觉,Codex还是没搞定。

具体问题出在页面链接和整体架构。Codex处理不了多页面之间的导航逻辑、文件结构、相对路径这些「工程化细节」。作者反复尝试,模型反复出错,循环往复。

最后切回Claude+Gemini组合才破局。Claude处理多页面逻辑「毫不费力」,Gemini辅助梳理结构。作者得出的结论很直接:「纯编码速度和逻辑能力,Claude目前是无争议的王者。」

但注意这个对比——Codex在视觉设计上赢了Claude,却在工程实现上惨败。没有全能选手,只有场景适配。

爸妈的三条「毒舌」反馈

网站做完,真正的验收方是作者父母。三条反馈条条扎心:

第一条关于心理安全感:「改老网站很吓人。」父母担心切换风险,怕新站出问题影响招生。作者正在考虑蓝绿部署,或者新旧版本并行。成本敏感是农村补习班的现实约束,他在对比AWS(EC2/S3)和Google Cloud,想找个轻量静态站的最优解。

第二条关于AI痕迹:「看起来太像AI生成的了。」Codex做的视觉虽然对味年轻妈妈,但父母觉得缺了「人味」。作者现在手动调字体和CSS,用VS Code精修,把机器感磨掉。

第三条关于可操作性:「我们自己改不了!」这是致命伤。父母不会碰代码,作者必须搭一套简化工作流——可能是无头内容管理系统(headless CMS),也可能是特定Git方案,让他们能自主更新课程信息、营业时间。

三条反馈对应三个真需求:风险可控、视觉可信、运营自主。AI一个都没自动解决。

作者的底层判断

他在结尾写了句话,算是给这波操作的定性:「AI是强大工具,但『人类在环』对最终调整和复杂架构导航至关重要。」

拆解一下这个案例的启示:

第一,模型分工比单模型硬怼更有效。Claude写代码、Codex做设计、Gemini理思路,各取所长。但分工需要人类判断什么时候该换将。

第二,AI的舒适区是「单点突破」,不是「系统工程」。单页面秒出,多页面卡死。复杂度越过某个阈值,模型的规划能力断崖式下跌。

第三,「可用」和「可交付」之间隔着大量人工。视觉要调、部署要配、运营流程要重建。这些脏活累活,AI不会主动提醒你。

第四,最懂需求的永远是人类。年轻妈妈喜欢什么设计、父母担心什么风险、农村补习班的成本约束——这些信息喂给AI,它能执行;但不喂,它不会问。

这件事的行业信号

作者的身份很有意思:云架构工程师,技术栈够深,但选择用AI「降维」做前端项目。这种「高维打低维」的实验,反而暴露了AI能力的真实边界。

对科技从业者来说,这个案例的价值在于「祛魅」。Claude被吹成「编程神器」,但多页面架构这种基础工程活,它也需要人类兜底。Codex的设计能力被验证,但工程化是硬伤。没有银弹。

更深层的问题是:当AI能把「60分方案」瞬间拉到「80分」,最后那20分的精修,反而成了稀缺能力。知道哪里该人工介入、怎么介入——这种判断力,可能是下一代工程师的核心竞争力。

作者最后抛了个问题:你有没有用AI给家里人做过项目?

我猜评论区会有人晒成功案例,也会有人吐槽类似翻车。毕竟,让AI理解「我爸妈不敢改网站」这种情感需求,可能比让它写七行代码更难。