在线体验 | 北大团队开源UniWorld-V1统一大模型，统一架构新思考|image|北大|在线体验|编码器|视频生成模型

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。欢迎成为wisemodel算力平台用户，新老用户参与可获8.88元算力券返现福利，A800/H20等算力6.25元/卡时，支持在线微调训练，及线部署和。

北大团队通过对GPT-4o-Image的深入实验，突破性发现其在视觉特征提取环节中，相较于传统变分自编码器（VAE），更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。

基于上述研究成果，团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型，仅需2.7M训练样本，即可实现图像理解、生成、编辑、感知等多任务处理。

实验数据显示，在多个权威基准测试中，UniWorld-V1的性能表现与使用2665M样本训练的BAGEL模型、专业图像编辑模型Step1X-Edit旗鼓相当。UniWorld-V1已上线始智AI-wisemodel开源社区，支持一键部署在线体验，欢迎大家前去尝试。

模型地址

https://wisemodel.cn/models/PKU-YUAN/UniWorld-V1

01.

观察

图1 UniWorld在多个基准上达到先进的性能

在“编辑实验”中，让 GPT-4o-Image 将公交车背面的广告涂成蓝色，观察到编辑前后黄色和绿色标签文字的位置发生明显不一致，说明低频结构没有被严格保留，VAE 特征（强调低频信息）无法解释这一现象。

在“去噪实验”中，将一张狗的图像分别加噪至 0.4× 和 0.6×，GPT-4o-Image 对低噪图像能够正确去噪，但在高噪（0.6×）下将狗误判为鹿。进一步调用 GPT-4o 和 Qwen2.5-VL 理解模块发现，它们对高噪图像也一致地识别为鹿，表明 GPT-4o-Image 依赖强大的多模态理解先验而非 VAE 的低频信息。

综上，这些观察支持了 GPT-4o-Image 使用基于语义编码器的视觉特征提取方案。

02.

架构

基于实验发现，我们将原先基于 VAE 的低级控制信号替换为对比式视觉-语言模型 SigLIP 编码器（选用最高分辨率版本 SigLIP2-so400m/14，固定输出 512×512）。在视觉理解部分，我们沿用了先前工作中使用的 Qwen2.5-VL-7B 预训练模型。

对于参考图像，同时使用 Qwen2.5-VL-7B 和 SigLIP 进行处理，并将两者的输出拼接后，作为 FLUX 文本分支的输入，从而实现更优的特征融合与建模。基于实验发现，我们将原先基于 VAE 的低级控制信号替换为对比式视觉-语言模型 SigLIP 编码器（选用最高分辨率版本 SigLIP2-so400m/14，固定输出 512×512）。

在视觉理解部分，我们沿用了先前工作中使用的 Qwen2.5-VL-7B 预训练模型。对于参考图像，同时使用 Qwen2.5-VL-7B 和 SigLIP 进行处理，并将两者的输出拼接后，作为 FLUX 文本分支的输入，从而实现更优的特征融合与建模。

03.

实验

在 GenEval 测试中，UniWorld-V1 取得总体 0.79 分；使用与 BLIP3-o 相同的提示重写后得分提升至 0.84，已非常接近 BAGEL 的 0.88。在 WISE 基准上，UniWorld-V1 综合得分 0.55，尤其在“空间”类题材中获得 0.73 分，仅次于 GPT-4o-Image 的 0.89，位列其他统一模型之首，展现了其在整合世界知识生成图像方面的竞争力。

在 ImgEdit-Bench 对比中，UniWorld-V1 以总分 3.37 位居所有开源模型之首，显著领先于 Step1X-Edit 和 BAGEL（均为 3.17）。它在 Adjust（3.70）、Remove（3.54）、Extract（2.23）、Replace（3.49）和 Hybrid（3.13）五大关键指标上均获开源模型最高分，展现了在属性调整、元素移除、对象提取、混合编辑与内容替换等任务中的卓越能力。

虽然 GPT-4o-Image 以 4.31 继续领跑，但 UniWorld-V1 的表现最接近该行业标杆，标志着其在开源阵营中已实现媲美顶级模型的图像编辑水平。

通过示例与 GPT-4o-Image 进行了定性对比（见图6）。结果显示，UniWorld-V1 在各类感知任务上表现不俗，甚至在许多方面超越了 GPT-4o-Image。尤其在 Canny 边缘检测、法线图生成、HED、分割和草图生成等任务中，UniWorld-V1 的指令理解与执行能力更强。这表明其一体化架构能够提供广泛且准确的图像感知功能，是首个具备如此多样且高保真视觉分析能力的开源统一模型。

04.

在线体验

wisemodel社区上已经上线了UniWorld-V1模型的镜像，支持一键创建在线体验，欢迎感兴趣的前往社区体验。首次在wisemodel社区创建在线体验的用户，同时还可以获得返现8.88算力券的福利。

首先进入wisemodel社区的“应用”模块，选中“uniworld”的镜像。

选择相应的硬件配置，其他信息都已经预填写了，可以根据需要调整，如果无需调整，则可以直接点击“提交订单”按钮，体验进入后台的启动阶段。

大概等待2-3分钟左右，体验进入运行中的状态。公开状态的在线体验可以直接在“在线体验”的页面上点击相应的体验，进入体验的页面；私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。

体验结束之后，也可以进入“用户中心-我的资源-体验”，在相应的体验后面操作栏，鼠标移到设置，出现“关闭”的按钮，如果创建时设置的自动停止时间，到期后也会自动停止。

欢迎前往wisemodel.cn社区进行体验，成为wisemodel社区的算力用户还可以获得8.88元的算力券返现福利~

编辑丨赵雅鑫

----- END -----

wisemodel相关：

系统升级：

大赛报名：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看