刚刚发生了两件事,放在一起看很有意思

第一件:来自英伟达
英伟达 H200 对华出口限制,正式放宽

第二件:来自「华为 x 智谱」
首个在国产芯片上,完成全流程训练的多模态模型,GLM-Image 发布并开源,从数据预处理到大规模预训练,全程跑在昇腾 Atlas 800T A2

打开网易新闻 查看精彩图片
不得不说,是个创举 先看效果
打开网易新闻 查看精彩图片
效果图:商业海报
打开网易新闻 查看精彩图片
效果图:科普插画
打开网易新闻 查看精彩图片
效果图:社交媒体封面

主打文字渲染,尤其擅长中文

在 CVTG-2K(复杂视觉文字生成)和 LongText-Bench(长文本渲染)两个榜单上都是开源第一

 榜单成绩 国产芯片全流程
打开网易新闻 查看精彩图片
榜单成绩 国产芯片全流程

这是这次发布最核心的部分

官方说法:自回归结构基座从数据预处理到大规模预训练,全流程在昇腾 Atlas 800T A2 上完成

具体怎么做的:

基于昇思 MindSpore 框架,智谱自研了一套训练套件
覆盖数据预处理、预训练、SFT、RL,端到端全流程

优化上,用动态图多级流水下发消除下发瓶颈,用多流并行让通信和计算互掩

算子层面,用了 AdamW EMA、COC、RMS Norm 等昇腾亲和的融合算子

 国产算力训练流程 架构
打开网易新闻 查看精彩图片
国产算力训练流程 架构

GLM-Image 采用「自回归 + 扩散解码器」混合架构

两个模块,各管一摊

自回归部分,9B
负责语义理解和全局构图,全程在昇腾上训练

扩散解码器部分,7B
DiT 结构,配合 Glyph Encoder 做文字渲染,解决「提笔忘字」的问题

前者管「读懂」,后者管「写对」

 GLM-Image 架构图
打开网易新闻 查看精彩图片
GLM-Image 架构图

这个方向和 Google 去年 11 月发的 Nano Banana Pro 一致

Nano Banana Pro 基于 Gemini 3 Pro,核心思路是把语言模型的推理能力和图像生成结合起来

智谱管这叫「认知型生成」

 解码器结构示意图 一个细节
打开网易新闻 查看精彩图片
解码器结构示意图 一个细节

还有一个值得关注的点:分辨率支持任意比例

传统图像生成模型的分辨率是 4:3、16:9 这样的预设比例。GLM-Image 通过改进 Tokenizer 策略,原生支持从 1024x1024 到 2048x2048 尺寸的任意比例图像生成,比如1240x1600 这种非标分辨率

对海报、社交媒体封面这类需要自定义尺寸的场景比较实用

价格与开源

API 调用 0.1 元/张

开源地址:

  • • GitHub:
    https://github.com/zai-org/GLM-Image

  • • Hugging Face:
    https://huggingface.co/zai-org/GLM-Image

  • • 魔搭社区:
    https://modelscope.cn/models/ZhipuAI/GLM-Image

在线体验已在智谱开放平台上线,Z.ai 和智谱清言即将接入

技术报告:
https://z.ai/blog/glm-image

 智谱用 GLM-Image 生成的总结图
打开网易新闻 查看精彩图片
智谱用 GLM-Image 生成的总结图

H200 解禁了,这是好事

但智谱用国产芯片跑通全流程这件事,证明了另一条路也能走

有没有一种可能...互为因果