你以为在调 AI,其实在 造世界 。
—— Harness Engineering
大家好啊,我是甲木。
清明在家没事搞了个小项目,先说起因。
前阵子看到好朋友冷逸用 GLM-5.1 开发了一个公众号写作神器「Auto-Wechat-Writing」,从需求到上线一气呵成,整个过程跑了 1300 万 tokens 。在那之前,袋鼠帝也用智谱 GLM-5 做了一个项目。
看他们做完,我也手痒了。于是在家直接做了个电商神器:StyleForge(风格锻造)项目。先给大家看看成品:
电商风格迁移网站
这是我用 GLM-5.1 从零开发的一个 Web 应用,StyleForge(风格锻造),面向电商场景的「视觉风格迁移」工具。
操作路径很简单,三步就能出图: 上传参考图、上传产品图 + 填写产品描述、一键生成 。
你的白牌产品,出来的图, 和大牌放一起毫不违和 。
整个项目从零搭建,前后端完整,有登录系统、历史记录管理,是一个真正能用的产品。
而开发它,我只用了一个工具:Claude Code + 智谱 GLM-5.1 模型。
这个项目的想法,最早源于我的一个电商用户的需求,当时我直接用 Skills 交付了,也是在凯寓的一次分享中,他提到了一个很有意思的方向,用 AI 解决电商详情页的设计问题。后来在凯寓和小七姐的帖子和方法论上做了一些延伸和创新。
再加上 GLM-5.1 这次开源,这个场景也适合做一个完整项目,所以: 拿这个项目来实测一下 GLM-5.1 的长程任务能力 ,毕竟是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。顺便做一个真正有用的东西出来。
本文看点
01
GLM-5.1 模型实力
02
电商风格迁移场景
03
从零到一完整开发
01
MODEL
GLM-5.1:开源模型的新王
在动手之前,先简单介绍一下 GLM-5.1 这个模型。
实测下来,我觉得智谱 GLM-5.1 实现了编程能力的SOTA:面向长程任务的开源第一模型。
什么叫长程任务?就是那种不是一句 Prompt 能搞定的复杂任务。它需要跨步骤、跨工具、持续好几个小时推进,中间还可能出各种意外,需要自主规划、自主执行、自主纠错。
METR 研究显示,在编程等领域,AI 能以 50% 成功率完成的任务复杂度(以人类专家耗时衡量)正呈指数级增长,近期加速至每 4–6 个月翻倍。
GLM-5.1 在这个方向上做了系统性的优化,总结为下图的三大核心能力:
从数据上看,GLM-5.1 在SWE-Bench和Artificial Analysis等核心评测中位列开源第一,
评测数据图片
OpenRouter上的调用量近期也排在开源模型前列。海外开发者社区对它评价极高,不少人直接称它为「开源模型的新王」。
海外老哥评价
YouTube 博主 AICodeKing 在 King Bench 测试中也给出了开源第一的排名。
AI Coding 其实有一条非常清晰的跃迁路径:
AI Coding → Vibe Coding → Agentic →Long Horizon
GLM-5.1 正是面向 Long Horizon 这个阶段的产物。同时,长时任务也是 Harness Engineering 实践中不可缺少的一环,它「让模型像一个资深工程师一样持续工作、交付成果」。
即日起,GLM-5.1在Hugging Face与ModelScope平台同步开源,模型权重遵循 MIT License。
GLM-5.1已纳入GLM Coding Plan(Max/Pro/Lite),支持 Claude Code、OpenCode等主流开发工具。
当模型能力已经对齐全球顶尖水平,真正拉开差距的将是:它能否像人类工程师一样,独立、持续地工作数小时,交付完整的工程级成果。这是GLM-5.1要回答的下一个问题。
说了这么多,空口无凭。最好的验证方式,就是拿一个真实项目来跑。
02
SCENARIO
为什么选电商风格迁移这个场景
因为这个场景太刚需了。
做过电商的人都知道,在货架电商里, 商品详情页就是你的「销售员」 。用户看不到实物,所有的产品认知、信任建立和购买决策,都发生在详情页上。一个优质的详情页可以将转化率提升 30%-50%,这是实实在在的真金白银。
但详情页的生产一直有两个核心痛点:
那怎么办?可以用 AI 做风格迁移。
用户找到对标品牌的优质详情页图片,上传自己的产品图和产品描述。AI 自动分析参考图「为什么好看」,从布局、色彩、光影、排版、情绪调性等多个维度 深度拆解参考图的「视觉 DNA」 ,然后将这套设计逻辑迁移到用户的产品上,生成具有品牌感的营销海报。
当然,自己如果就是大牌产品,把过往的设计风格,直接给到 AI,更容易直接复刻出图。
它理解的是 设计逻辑,不是表面效果 。
白牌产品,也能拥有大牌级的视觉表现,而且无需设计师从零创作。
03
BUILD
从零到一的完整开发过程
接下来给大家完整还原一下这个项目的开发过程,用最新的黑话来说,这是一次 Harness Engineering 实践 。
整个项目的消耗大概在六七千万 tokens 吧,中间限额之后又换了个号。
— 其中一个账号的消耗
我用的是 Claude Code 接入 GLM-5.1 模型,整个项目从第一行代码到最终可用, 全程由 GLM-5.1 完成编码 。
我没有一上来就给模型写 prompt 让它写代码,也不只是把需求文档喂给它。我做的是给它搭建一个完整的工作环境:先对齐认知,再用 PRD 定义目标约束,用技术方案画出行动边界,用分步交付建立质量检查点。
这些东西加在一起,构成了 GLM-5.1 的 Harness。它之所以能在长程任务中保持稳定、不跑偏,除了模型本身够强,更重要的是 给它造了一个「对的世界」 。
STEP 1 预期对齐
我先把整个项目的背景告诉了 GLM-5.1。
电商场景是什么样的,用户有什么痛点,我想做一个什么产品,技术上大概怎么选型。我没有急着让它动手,而是让它先复述一遍理解,分析技术难点,给出开发顺序的建议。
这一步很关键。如果 模型理解跑偏了,后面写再多代码也白搭 。
然后,进行信息对齐:
对齐完成,我们对项目的认知是一致的。
STEP 2 产品设定 + PRD
对齐之后,我让它先输出产品设定。明确用户是谁、核心场景有哪些、功能优先级怎么排、页面清单是什么。
确认产品设定后,再让它写一份完整的 PRD(产品需求文档) 。包括每个页面的交互设计、前后端 API 接口、数据库表结构、非功能需求。
产品对齐 GIF
这个环节的好处是:后续编码遇到问题,我可以直接说「你在 PRD 里是这么定义的」,让它自己对照修正。有了 文档做锚点,模型就不容易在长链路任务中跑偏 。
STEP 3 技术方案
PRD 确认后,下一步是技术方案。
这一步我特别关注的是它对 核心模块的设计思路 。
风格 DNA 分析模块:
这里其实也依赖我过往的一个风格分析的 prompt,也就是在参考了凯寓和小七姐之后的一个优化扩充版。
GLM-5.1 输出的方案 结构清晰,考虑也比较周全 。我微调了一些细节,技术方案就定稿了。
— 比较轻量级的一个方案
STEP 4 逐步编码
进入正式开发。这个过程 完全由 GLM-5.1 自行主导 。
项目初始化 搭建前后端骨架,配好开发环境,这轮没什么悬念,GLM-5.1 很顺利地完成了。
这里我忘了截当时的规划步骤图,我直接交给它之后我就去吃饭了...
然后上下文太长 自动 compact 了 。。
中间经历了半个多小时,遇到 bug 也会 自行修正优化 。
之后,交付出来一整个结果,直接按操作打开~
登录注册页面,图片上传和项目管理模块都做的很好,在这中间,还让它用了 front-design skills 去进行 前端审美的设计 。
核心功能风格分析 + 海报生成。这是整个项目最难的部分,也是 最能体现 GLM-5.1 长程任务能力 的环节。
这里简单说一下核心逻辑。我设计了一套「视觉 DNA」分析框架,从 9 个维度 去拆解一张参考图的设计风格。
这个环节 GLM-5.1 跑了很久,中间确实遇到了不少问题。
有一次 API 返回的 JSON 格式不规范,它自己看了错误日志, 加了一层正则预处理来提取 JSON 块 ,然后继续往下走。还有一次生成图片为空,它自动触发了重试,第二次成功了。
bug 修复 GIF
这种自主排查、自主修复的能力,是我整个开发过程中感受最深的。
以前用开源模型做长任务,到后半程经常需要人工介入,手动帮它纠错。GLM-5.1 在这方面 明显好了一个台阶 。
UI 打磨 功能跑通之后,我让它做了一轮 UI 优化。包括 Landing Page 的设计(产品介绍、操作步骤说明、效果展示)、 整体配色统一、加载动画、响应式适配 。
STEP 5 联调测试 + 收尾
当然,我在操作打开的时候,不可避免的遇到了一些 bug 问题。
然后就跟它对话,让它进行修正,优化。
等项目完成后,可以让它直接开启 自检查模式 ,直接说「帮我去完成一系列的自动化测试」。
包括还可以直接让它用我们的 /front-design skills 帮我们去优化主界面,最终呈现出来的结果就是这样的~
首页展示 GIF
而且在测试的过程中,如果遇到了一些问题,比如接入更多的供应商支持,接入更多的模型。我们都可以直接在对话框里跟它对话。它会以 反问的形式,让我们提供选项 供我们选择。
紧接着又设置了一堆 plan 长程任务,然后 开始自己执行 。太吊了。
最后它帮我写了 README、创建了 .env.example、确认了一键启动流程。
项目交付。
1246
AI 自行执行轮次
tokens 消耗
4-5h
总开发时长
最终的效果就是大家开头看到的视频那样, 直接交付一个可用的系统 。
文章开头的视频
当然了,在这里边我没有考虑到比如说高并发或者高可用的这种场景,我没有把这些背景告诉给 AI。在一些高 QPS 场景下,它目前要优化的还有很多~
在之后,我也会不断地去打磨这个项目。
04
THOUGHTS
简单聊聊这个项目的思考
这次实测下来,GLM-5.1 在长程任务上的表现是 超预期的 。
它的稳定性和一致性非常值得一提。在一个需要持续好几个小时、跨十几个步骤的完整项目开发中,它 始终记得前面定的架构和约束 ,始终围绕最终交付目标推进,中途遇到问题自己修正,不跑偏、不断链。
— 智谱 GLM-5.1
这种体验,以前只在闭源的顶级模型上有过。而 GLM-5.1 是开源的 。
开源意味着什么?意味着更多的开发者、更多的场景、更低的成本、更大的可能性。当开源模型也能稳定地完成长程任务的时候, AI 编程的门槛又往下降了一大截 。
不得不说一句,智谱牛逼 !
而关于电商 AI 应用这个,风格迁移只是一个切入点。 电商详情页的 AI 化生产,是一个巨大的市场 。
— 电商 AI 应用
中国有上千万的电商商家,80% 以上是中小商家和白牌商家。他们每个月需要制作大量的商品详情页,但 设计资源严重不足 。商品越来越多,上新越来越快,好的设计师永远是稀缺的。这个矛盾只会越来越大。
AI 风格迁移可以让那些没有设计师的商家也能做出有品质的详情页。这是一个增量市场,也是一个 真正的刚需 。
好的 AI 技术就应该实际地落在我们的业务场景应用中。
FINAL THOUGHTS
从写 Prompt 到造世界
Harness Engineering 。
很多人觉得用 AI 做项目就是「写一句好的 prompt 让它写代码」。这样做,90% 的情况出来的东西不能用。
最近看到郭美青老师写了一篇文章,讲从 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的演进。他说了一个我觉得特别精准的判断:这三个词其实在说同一件事,只是在不同的高度望向同一个问题。
PE 是调措辞,你跟模型怎么说话。CE 是调信息流,模型该看到什么、什么时候看到。HE 是调整个环境,模型能做什么、不能做什么、错了怎么办、谁来判断它做得好不好。
「三者不是替代关系,是套娃。HE 包着 CE,CE 包着 PE。」
再看看这次的开发过程,其实就是一次 Harness Engineering 的实践。
我没有一上来就给模型写 prompt 让它写代码。也不只是把需求文档喂给它就完事。我做的是给 GLM-5.1 搭建了一个完整的工作环境:
— 搭建的环境
这些东西加在一起,就是 GLM-5.1 的 Harness。
OpenAI 发现过一个反直觉的结论:约束越多,Agent 反而干得越好。这里指的是 清晰的架构规范、可靠的检查流程、及时的阶段确认 。
这跟管人一模一样。好的管理者不是控制欲最强的那个人,而是 环境设计得最好的那个人 。
你以为在调 AI,其实在造世界。
Prompt 写得好不好当然重要,但它只是最内层的那个套娃。
真正决定项目成败的,是 你给 AI 构建的那个工作环境 。
对齐预期、定义文档、设计架构、分步交付,这些不是「开发前的准备工作」,这些就是开发本身。
这套方法不只适用于 GLM-5.1,它是一个通用的 AI 协作开发框架。非技术背景的人也完全可以用。
关键不在于你会不会写代码,而是你能不能定义一个好问题,
能不能,为 AI 造一个对的世界。
以上。
我是甲木,热衷于分享一些 AI 干货内容,同时也会分享 AI 在各行业的落地应用。
如果你觉得今天这篇有收获,欢迎点赞、在看、转发三连,我们下期再见
热门跟贴