源神降临！我用智谱 GLM-5.1 搓了个电商神器，白牌秒变大牌（附完整开发思路）|glm|源神|电商神器|编程

你以为在调 AI，其实在造世界。

—— Harness Engineering

大家好啊，我是甲木。

清明在家没事搞了个小项目，先说起因。

前阵子看到好朋友冷逸用 GLM-5.1 开发了一个公众号写作神器「Auto-Wechat-Writing」，从需求到上线一气呵成，整个过程跑了 1300 万 tokens 。在那之前，袋鼠帝也用智谱 GLM-5 做了一个项目。

看他们做完，我也手痒了。于是在家直接做了个电商神器：StyleForge（风格锻造）项目。先给大家看看成品：

电商风格迁移网站

这是我用 GLM-5.1 从零开发的一个 Web 应用，StyleForge（风格锻造），面向电商场景的「视觉风格迁移」工具。

操作路径很简单，三步就能出图：上传参考图、上传产品图 + 填写产品描述、一键生成。

你的白牌产品，出来的图，和大牌放一起毫不违和。

整个项目从零搭建，前后端完整，有登录系统、历史记录管理，是一个真正能用的产品。

而开发它，我只用了一个工具：Claude Code + 智谱 GLM-5.1 模型。

这个项目的想法，最早源于我的一个电商用户的需求，当时我直接用 Skills 交付了，也是在凯寓的一次分享中，他提到了一个很有意思的方向，用 AI 解决电商详情页的设计问题。后来在凯寓和小七姐的帖子和方法论上做了一些延伸和创新。

再加上 GLM-5.1 这次开源，这个场景也适合做一个完整项目，所以：拿这个项目来实测一下 GLM-5.1 的长程任务能力，毕竟是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。顺便做一个真正有用的东西出来。

本文看点

GLM-5.1 模型实力

电商风格迁移场景

从零到一完整开发

MODEL

GLM-5.1：开源模型的新王

在动手之前，先简单介绍一下 GLM-5.1 这个模型。

实测下来，我觉得智谱 GLM-5.1 实现了编程能力的SOTA：面向长程任务的开源第一模型。

什么叫长程任务？就是那种不是一句 Prompt 能搞定的复杂任务。它需要跨步骤、跨工具、持续好几个小时推进，中间还可能出各种意外，需要自主规划、自主执行、自主纠错。

METR 研究显示，在编程等领域，AI 能以 50% 成功率完成的任务复杂度（以人类专家耗时衡量）正呈指数级增长，近期加速至每 4–6 个月翻倍。

GLM-5.1 在这个方向上做了系统性的优化，总结为下图的三大核心能力：

从数据上看，GLM-5.1 在SWE-Bench和Artificial Analysis等核心评测中位列开源第一，

评测数据图片

OpenRouter上的调用量近期也排在开源模型前列。海外开发者社区对它评价极高，不少人直接称它为「开源模型的新王」。

海外老哥评价

YouTube 博主 AICodeKing 在 King Bench 测试中也给出了开源第一的排名。

AI Coding 其实有一条非常清晰的跃迁路径：

AI Coding → Vibe Coding → Agentic →Long Horizon

GLM-5.1 正是面向 Long Horizon 这个阶段的产物。同时，长时任务也是 Harness Engineering 实践中不可缺少的一环，它「让模型像一个资深工程师一样持续工作、交付成果」。

即日起，GLM-5.1在Hugging Face与ModelScope平台同步开源，模型权重遵循 MIT License。

GLM-5.1已纳入GLM Coding Plan(Max/Pro/Lite)，支持 Claude Code、OpenCode等主流开发工具。

当模型能力已经对齐全球顶尖水平，真正拉开差距的将是：它能否像人类工程师一样，独立、持续地工作数小时，交付完整的工程级成果。这是GLM-5.1要回答的下一个问题。

说了这么多，空口无凭。最好的验证方式，就是拿一个真实项目来跑。

SCENARIO

为什么选电商风格迁移这个场景

因为这个场景太刚需了。

做过电商的人都知道，在货架电商里，商品详情页就是你的「销售员」。用户看不到实物，所有的产品认知、信任建立和购买决策，都发生在详情页上。一个优质的详情页可以将转化率提升 30%-50%，这是实实在在的真金白银。

但详情页的生产一直有两个核心痛点：

那怎么办？可以用 AI 做风格迁移。

用户找到对标品牌的优质详情页图片，上传自己的产品图和产品描述。AI 自动分析参考图「为什么好看」，从布局、色彩、光影、排版、情绪调性等多个维度深度拆解参考图的「视觉 DNA」，然后将这套设计逻辑迁移到用户的产品上，生成具有品牌感的营销海报。

当然，自己如果就是大牌产品，把过往的设计风格，直接给到 AI，更容易直接复刻出图。

它理解的是设计逻辑，不是表面效果。

白牌产品，也能拥有大牌级的视觉表现，而且无需设计师从零创作。

BUILD

从零到一的完整开发过程

接下来给大家完整还原一下这个项目的开发过程，用最新的黑话来说，这是一次 Harness Engineering 实践。

整个项目的消耗大概在六七千万 tokens 吧，中间限额之后又换了个号。

— 其中一个账号的消耗

我用的是 Claude Code 接入 GLM-5.1 模型，整个项目从第一行代码到最终可用，全程由 GLM-5.1 完成编码。

我没有一上来就给模型写 prompt 让它写代码，也不只是把需求文档喂给它。我做的是给它搭建一个完整的工作环境：先对齐认知，再用 PRD 定义目标约束，用技术方案画出行动边界，用分步交付建立质量检查点。

这些东西加在一起，构成了 GLM-5.1 的 Harness。它之所以能在长程任务中保持稳定、不跑偏，除了模型本身够强，更重要的是给它造了一个「对的世界」。

STEP 1 预期对齐

我先把整个项目的背景告诉了 GLM-5.1。

电商场景是什么样的，用户有什么痛点，我想做一个什么产品，技术上大概怎么选型。我没有急着让它动手，而是让它先复述一遍理解，分析技术难点，给出开发顺序的建议。

这一步很关键。如果模型理解跑偏了，后面写再多代码也白搭。

然后，进行信息对齐：

对齐完成，我们对项目的认知是一致的。

STEP 2 产品设定 + PRD

对齐之后，我让它先输出产品设定。明确用户是谁、核心场景有哪些、功能优先级怎么排、页面清单是什么。

确认产品设定后，再让它写一份完整的 PRD（产品需求文档）。包括每个页面的交互设计、前后端 API 接口、数据库表结构、非功能需求。

产品对齐 GIF

这个环节的好处是：后续编码遇到问题，我可以直接说「你在 PRD 里是这么定义的」，让它自己对照修正。有了文档做锚点，模型就不容易在长链路任务中跑偏。

STEP 3 技术方案

PRD 确认后，下一步是技术方案。

这一步我特别关注的是它对核心模块的设计思路。

风格 DNA 分析模块：

这里其实也依赖我过往的一个风格分析的 prompt，也就是在参考了凯寓和小七姐之后的一个优化扩充版。

GLM-5.1 输出的方案结构清晰，考虑也比较周全。我微调了一些细节，技术方案就定稿了。

— 比较轻量级的一个方案

STEP 4 逐步编码

进入正式开发。这个过程完全由 GLM-5.1 自行主导。

项目初始化搭建前后端骨架，配好开发环境，这轮没什么悬念，GLM-5.1 很顺利地完成了。

这里我忘了截当时的规划步骤图，我直接交给它之后我就去吃饭了...

然后上下文太长自动 compact 了。。

中间经历了半个多小时，遇到 bug 也会自行修正优化。

之后，交付出来一整个结果，直接按操作打开~

登录注册页面，图片上传和项目管理模块都做的很好，在这中间，还让它用了 front-design skills 去进行前端审美的设计。

核心功能风格分析 + 海报生成。这是整个项目最难的部分，也是最能体现 GLM-5.1 长程任务能力的环节。

这里简单说一下核心逻辑。我设计了一套「视觉 DNA」分析框架，从 9 个维度去拆解一张参考图的设计风格。

这个环节 GLM-5.1 跑了很久，中间确实遇到了不少问题。

有一次 API 返回的 JSON 格式不规范，它自己看了错误日志，加了一层正则预处理来提取 JSON 块，然后继续往下走。还有一次生成图片为空，它自动触发了重试，第二次成功了。

bug 修复 GIF

这种自主排查、自主修复的能力，是我整个开发过程中感受最深的。

以前用开源模型做长任务，到后半程经常需要人工介入，手动帮它纠错。GLM-5.1 在这方面明显好了一个台阶。

UI 打磨功能跑通之后，我让它做了一轮 UI 优化。包括 Landing Page 的设计（产品介绍、操作步骤说明、效果展示）、整体配色统一、加载动画、响应式适配。

STEP 5 联调测试 + 收尾

当然，我在操作打开的时候，不可避免的遇到了一些 bug 问题。

然后就跟它对话，让它进行修正，优化。

等项目完成后，可以让它直接开启自检查模式，直接说「帮我去完成一系列的自动化测试」。

包括还可以直接让它用我们的 /front-design skills 帮我们去优化主界面，最终呈现出来的结果就是这样的~

首页展示 GIF

而且在测试的过程中，如果遇到了一些问题，比如接入更多的供应商支持，接入更多的模型。我们都可以直接在对话框里跟它对话。它会以反问的形式，让我们提供选项供我们选择。

紧接着又设置了一堆 plan 长程任务，然后开始自己执行。太吊了。

最后它帮我写了 README、创建了 .env.example、确认了一键启动流程。

项目交付。

1246

AI 自行执行轮次

tokens 消耗

4-5h

总开发时长

最终的效果就是大家开头看到的视频那样，直接交付一个可用的系统。

文章开头的视频

当然了，在这里边我没有考虑到比如说高并发或者高可用的这种场景，我没有把这些背景告诉给 AI。在一些高 QPS 场景下，它目前要优化的还有很多~

在之后，我也会不断地去打磨这个项目。

THOUGHTS

简单聊聊这个项目的思考

这次实测下来，GLM-5.1 在长程任务上的表现是超预期的。

它的稳定性和一致性非常值得一提。在一个需要持续好几个小时、跨十几个步骤的完整项目开发中，它始终记得前面定的架构和约束，始终围绕最终交付目标推进，中途遇到问题自己修正，不跑偏、不断链。

— 智谱 GLM-5.1

这种体验，以前只在闭源的顶级模型上有过。而 GLM-5.1 是开源的。

开源意味着什么？意味着更多的开发者、更多的场景、更低的成本、更大的可能性。当开源模型也能稳定地完成长程任务的时候， AI 编程的门槛又往下降了一大截。

不得不说一句，智谱牛逼！

而关于电商 AI 应用这个，风格迁移只是一个切入点。电商详情页的 AI 化生产，是一个巨大的市场。

— 电商 AI 应用

中国有上千万的电商商家，80% 以上是中小商家和白牌商家。他们每个月需要制作大量的商品详情页，但设计资源严重不足。商品越来越多，上新越来越快，好的设计师永远是稀缺的。这个矛盾只会越来越大。

AI 风格迁移可以让那些没有设计师的商家也能做出有品质的详情页。这是一个增量市场，也是一个真正的刚需。

好的 AI 技术就应该实际地落在我们的业务场景应用中。

FINAL THOUGHTS

从写 Prompt 到造世界

Harness Engineering 。

很多人觉得用 AI 做项目就是「写一句好的 prompt 让它写代码」。这样做，90% 的情况出来的东西不能用。

最近看到郭美青老师写了一篇文章，讲从 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的演进。他说了一个我觉得特别精准的判断：这三个词其实在说同一件事，只是在不同的高度望向同一个问题。

PE 是调措辞，你跟模型怎么说话。CE 是调信息流，模型该看到什么、什么时候看到。HE 是调整个环境，模型能做什么、不能做什么、错了怎么办、谁来判断它做得好不好。

「三者不是替代关系，是套娃。HE 包着 CE，CE 包着 PE。」

再看看这次的开发过程，其实就是一次 Harness Engineering 的实践。

我没有一上来就给模型写 prompt 让它写代码。也不只是把需求文档喂给它就完事。我做的是给 GLM-5.1 搭建了一个完整的工作环境：

— 搭建的环境

这些东西加在一起，就是 GLM-5.1 的 Harness。

OpenAI 发现过一个反直觉的结论：约束越多，Agent 反而干得越好。这里指的是清晰的架构规范、可靠的检查流程、及时的阶段确认。

这跟管人一模一样。好的管理者不是控制欲最强的那个人，而是环境设计得最好的那个人。

你以为在调 AI，其实在造世界。

Prompt 写得好不好当然重要，但它只是最内层的那个套娃。

真正决定项目成败的，是你给 AI 构建的那个工作环境。

对齐预期、定义文档、设计架构、分步交付，这些不是「开发前的准备工作」，这些就是开发本身。

这套方法不只适用于 GLM-5.1，它是一个通用的 AI 协作开发框架。非技术背景的人也完全可以用。

关键不在于你会不会写代码，而是你能不能定义一个好问题，

能不能，为 AI 造一个对的世界。

以上。

我是甲木，热衷于分享一些 AI 干货内容，同时也会分享 AI 在各行业的落地应用。

如果你觉得今天这篇有收获，欢迎点赞、在看、转发三连，我们下期再见

源神降临！我用智谱 GLM-5.1 搓了个电商神器，白牌秒变大牌（附完整开发思路）

热搜

热门跟贴

热搜

热门跟贴

相关推荐

智谱GLM-5.1模型开源发布 支持8小时长程任务执行

开源模型首超Opus4.6！智谱GLM-5.1登场，14小时后CUDA专家被冲了

开源作者把5个免费账号拼成1个无限额度，AI公司还没反应过来

倔开被骗惨不忍睹，对手虚晃一招兵器谱排名第一的大神也得上当

Salesforce开发者苦等10年，1个人用6个免费工具掀桌

我又成功安利了鸿蒙6“统一拖拽”，知道这个宝藏功能的人再＋1

AI无处不在，请大家擦亮眼睛，也希望平台监管严格！

MSI花3年憋出1200W电源，实测后用户发现1个藏不住的猫腻

用机器实现自动打包，有这个功夫，人工早就打包好了！

先讲贵货让人心里打鼓，再提便宜瞬间轻松不少，如此销售皆大欢喜

大哥现场教学，做生意用计算机，这不赶紧听话！

把包浸泡液体以后，瞬间档次上来，成本几块钱瞬间变一百

淘金现在也上机器了，这么方便，果然科技改变生活

华为AI眼镜曝光/Meta发布全新AI大模型/苹果将推出iPhone Air 2

卡帕西都整破防了：AI Coding没门槛，可部署环节真嗯啊的难

烧Token成KPI，8.5万Meta员工狂刷60万亿Token，争榜一大哥

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然

Meta亿元天团首个大模型交卷！耗时九个月，一雪Llama前耻

Meta重组AI团队后首个模型来了：不是最强、不再开源、可能够用

能力太强，Mythos被Anthropic“冻结”

智谱GLM-5.1模型开源发布支持8小时长程任务执行