智象未来发布200B+ 原生全模态图像大模型，并完成新一轮亿元融资

网易智能

2026-05-20 14:45 ·北京

5月19日，智象未来举办首届开放日，主题为“Imaging the World”。会上，智象未来正式发布基于新一代原生全模态架构 Unified Transformer（UiT）打造的图像大模型 HiDream-O1-Image-Pro，并宣布完成新一轮亿元级融资，深创投、金浦投资、财鑫资本、复聚资本等机构参与。

据了解，HiDream-O1-Image-Pro 参数规模超过200B，采用原生全模态架构，将图像像素、文本标记与任务条件统一纳入连续共享标记空间，实现图像、文本与多任务条件的统一建模。相比传统基于 U-Net 或扩散 Transformer（DiT）的多模块拼接方案，该架构试图解决复杂语义理解、高保真细节还原、精准文字渲染等问题。

据悉，新模型在通用文生图、高保真文字渲染、图像编辑、多样化场景生成等任务上刷新多项 SOTA 纪录，进一步推动模型向图像、视频、文本、音频等多模态统一建模演进。

智象未来创始人兼 CEO 梅涛表示，目前很多多模态模型仍属于“单模态拼接”，而原生全模态模型从底层统一建模世界规则、空间关系与因果逻辑，更接近真正理解和推理现实世界，他判断：“原生全模态是实现 AGI 的必经之路”。

联合创始人兼 CTO 姚霆介绍，此前采用 UiT 架构的开源模型 HiDream-O1-Image（8B 版本）已在 Artificial Analysis 文生图榜单中位列全球开源模型第一，超过 Z-Image Turbo、Qwen-Image、FLUX.2 [dev] 等主流模型。本次发布的闭源版本 HiDream-O1-Image-Pro 则进一步提升复杂文本渲染、指令编辑、多主体个性化等能力。

姚霆表示，在 UiT 架构下，不同模态从训练初期即统一融合，目标是实现“Any to Any”的任意输入与任意输出能力，这也是世界模型所需要的核心能力。（袁宁）

打开网易新闻体验更佳