智谱 x 华为：【首个】国产芯片训出的生图模型，开源发布｜支持非标分辨率，中文海报直出

赛博禅心

2026-01-14 11:28 ·北京

刚刚发生了两件事，放在一起看很有意思

第一件：来自英伟达
英伟达 H200 对华出口限制，正式放宽

第二件：来自「华为 x 智谱」
首个在国产芯片上，完成全流程训练的多模态模型，GLM-Image 发布并开源，从数据预处理到大规模预训练，全程跑在昇腾 Atlas 800T A2

不得不说，是个创举先看效果

效果图：商业海报

效果图：科普插画

效果图：社交媒体封面

主打文字渲染，尤其擅长中文

在 CVTG-2K（复杂视觉文字生成）和 LongText-Bench（长文本渲染）两个榜单上都是开源第一

榜单成绩国产芯片全流程

这是这次发布最核心的部分

官方说法：自回归结构基座从数据预处理到大规模预训练，全流程在昇腾 Atlas 800T A2 上完成

具体怎么做的：

基于昇思 MindSpore 框架，智谱自研了一套训练套件
覆盖数据预处理、预训练、SFT、RL，端到端全流程

优化上，用动态图多级流水下发消除下发瓶颈，用多流并行让通信和计算互掩

算子层面，用了 AdamW EMA、COC、RMS Norm 等昇腾亲和的融合算子

国产算力训练流程架构

GLM-Image 采用「自回归 + 扩散解码器」混合架构

两个模块，各管一摊

自回归部分，9B
负责语义理解和全局构图，全程在昇腾上训练

扩散解码器部分，7B
DiT 结构，配合 Glyph Encoder 做文字渲染，解决「提笔忘字」的问题

前者管「读懂」，后者管「写对」

GLM-Image 架构图

这个方向和 Google 去年 11 月发的 Nano Banana Pro 一致

Nano Banana Pro 基于 Gemini 3 Pro，核心思路是把语言模型的推理能力和图像生成结合起来

智谱管这叫「认知型生成」

解码器结构示意图一个细节

还有一个值得关注的点：分辨率支持任意比例

传统图像生成模型的分辨率是 4:3、16:9 这样的预设比例。GLM-Image 通过改进 Tokenizer 策略，原生支持从 1024x1024 到 2048x2048 尺寸的任意比例图像生成，比如1240x1600 这种非标分辨率

对海报、社交媒体封面这类需要自定义尺寸的场景比较实用

价格与开源

API 调用 0.1 元/张

开源地址：

• GitHub：
https://github.com/zai-org/GLM-Image
• Hugging Face：
https://huggingface.co/zai-org/GLM-Image
• 魔搭社区：
https://modelscope.cn/models/ZhipuAI/GLM-Image

在线体验已在智谱开放平台上线，Z.ai 和智谱清言即将接入

技术报告：
https://z.ai/blog/glm-image

智谱用 GLM-Image 生成的总结图

H200 解禁了，这是好事

但智谱用国产芯片跑通全流程这件事，证明了另一条路也能走

有没有一种可能...互为因果

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴