5月19日,智象未来举办首届开放日,主题为“Imaging the World”。会上,智象未来正式发布基于新一代原生全模态架构 Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro,并宣布完成新一轮亿元级融资,深创投、金浦投资、财鑫资本、复聚资本等机构参与。
据了解,HiDream-O1-Image-Pro 参数规模超过200B,采用原生全模态架构,将图像像素、文本标记与任务条件统一纳入连续共享标记空间,实现图像、文本与多任务条件的统一建模。相比传统基于 U-Net 或扩散 Transformer(DiT)的多模块拼接方案,该架构试图解决复杂语义理解、高保真细节还原、精准文字渲染等问题。
据悉,新模型在通用文生图、高保真文字渲染、图像编辑、多样化场景生成等任务上刷新多项 SOTA 纪录,进一步推动模型向图像、视频、文本、音频等多模态统一建模演进。
智象未来创始人兼 CEO 梅涛 表示,目前很多多模态模型仍属于“单模态拼接”,而原生全模态模型从底层统一建模世界规则、空间关系与因果逻辑,更接近真正理解和推理现实世界,他判断:“原生全模态是实现 AGI 的必经之路”。
联合创始人兼 CTO 姚霆 介绍,此前采用 UiT 架构的开源模型 HiDream-O1-Image(8B 版本)已在 Artificial Analysis 文生图榜单中位列全球开源模型第一,超过 Z-Image Turbo、Qwen-Image、FLUX.2 [dev] 等主流模型。本次发布的闭源版本 HiDream-O1-Image-Pro 则进一步提升复杂文本渲染、指令编辑、多主体个性化等能力。
姚霆表示,在 UiT 架构下,不同模态从训练初期即统一融合,目标是实现“Any to Any”的任意输入与任意输出能力,这也是世界模型所需要的核心能力。(袁宁)
热门跟贴