升级对标Sora，腾讯混元开源文生图大模型

市界

2024-05-14 18:52 ·北京

5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在 Hugging Face 平台及 Github 上发布。混元文生图包含了模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。

过去，视觉生成扩散模型主要基于的是U-Net 架构，但随着参数量的提升，基于Transformer 架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。

升级后的腾讯混元文生图大模型采用的是全新的DiT架构（DiT，即Diffusion With Transformer），这也与此前OpenAI旗下的Sora和著名开源大模型平台Stability最新的文生图模型Stable Diffusion 3使用了同款架构和关键技术，是一种基于Transformer架构的扩散模型。

升级后的混元文生图大模型不仅可支持文生图，也可作为视频等多模态视觉生成的基础。

中文原生也是此次腾讯混元文生图大模型的一大亮点。此前，Stable Diffusion等主流开源模型核心数据集以英文为主。混元文生图则具备更强的中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

据了解，从2023 年 7 月起，腾讯混元文生图团队便明确了基于DiT架构的模型方向，并启动了新一代模型研发。今年初，混元文生图大模型全面升级为DiT架构，并对原有模型进行了改进：新一代DiT模型具备了更长的文本理解能力，支持最长256个字符（业界主流是77个）的图片生成指令。增加了中文原生的理解能力；并增加了多轮对话的能力。

据了解，目前腾讯已开源了超 170 个优质项目，均来源于腾讯真实业务场景，已覆盖了微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。（赵子坤/文李原/编辑）

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴