始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。欢迎成为wisemodel算力平台用户,新老用户参与可获8.88元算力券返现福利,A800/H20等算力6.25元/卡时,支持在线微调训练,及线部署和。
北大团队通过对GPT-4o-Image的深入实验,突破性发现其在视觉特征提取环节中,相较于传统变分自编码器(VAE),更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。
基于上述研究成果,团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型,仅需2.7M训练样本,即可实现图像理解、生成、编辑、感知等多任务处理。
实验数据显示,在多个权威基准测试中,UniWorld-V1的性能表现与使用2665M样本训练的BAGEL模型、专业图像编辑模型Step1X-Edit旗鼓相当。UniWorld-V1已上线始智AI-wisemodel开源社区,支持一键部署在线体验,欢迎大家前去尝试。
模型地址
https://wisemodel.cn/models/PKU-YUAN/UniWorld-V1
01.
观察
图1 UniWorld在多个基准上达到先进的性能
在“编辑实验”中,让 GPT-4o-Image 将公交车背面的广告涂成蓝色,观察到编辑前后黄色和绿色标签文字的位置发生明显不一致,说明低频结构没有被严格保留,VAE 特征(强调低频信息)无法解释这一现象。
在“去噪实验”中,将一张狗的图像分别加噪至 0.4× 和 0.6×,GPT-4o-Image 对低噪图像能够正确去噪,但在高噪(0.6×)下将狗误判为鹿。进一步调用 GPT-4o 和 Qwen2.5-VL 理解模块发现,它们对高噪图像也一致地识别为鹿,表明 GPT-4o-Image 依赖强大的多模态理解先验而非 VAE 的低频信息。
综上,这些观察支持了 GPT-4o-Image 使用基于语义编码器的视觉特征提取方案。
02.
架构
基于实验发现,我们将原先基于 VAE 的低级控制信号替换为对比式视觉-语言模型 SigLIP 编码器(选用最高分辨率版本 SigLIP2-so400m/14,固定输出 512×512)。在视觉理解部分,我们沿用了先前工作中使用的 Qwen2.5-VL-7B 预训练模型。
对于参考图像,同时使用 Qwen2.5-VL-7B 和 SigLIP 进行处理,并将两者的输出拼接后,作为 FLUX 文本分支的输入,从而实现更优的特征融合与建模。基于实验发现,我们将原先基于 VAE 的低级控制信号替换为对比式视觉-语言模型 SigLIP 编码器(选用最高分辨率版本 SigLIP2-so400m/14,固定输出 512×512)。
在视觉理解部分,我们沿用了先前工作中使用的 Qwen2.5-VL-7B 预训练模型。对于参考图像,同时使用 Qwen2.5-VL-7B 和 SigLIP 进行处理,并将两者的输出拼接后,作为 FLUX 文本分支的输入,从而实现更优的特征融合与建模。
03.
实验
在 GenEval 测试中,UniWorld-V1 取得总体 0.79 分;使用与 BLIP3-o 相同的提示重写后得分提升至 0.84,已非常接近 BAGEL 的 0.88。在 WISE 基准上,UniWorld-V1 综合得分 0.55,尤其在“空间”类题材中获得 0.73 分,仅次于 GPT-4o-Image 的 0.89,位列其他统一模型之首,展现了其在整合世界知识生成图像方面的竞争力。
在 ImgEdit-Bench 对比中,UniWorld-V1 以总分 3.37 位居所有开源模型之首,显著领先于 Step1X-Edit 和 BAGEL(均为 3.17)。它在 Adjust(3.70)、Remove(3.54)、Extract(2.23)、Replace(3.49)和 Hybrid(3.13)五大关键指标上均获开源模型最高分,展现了在属性调整、元素移除、对象提取、混合编辑与内容替换等任务中的卓越能力。
虽然 GPT-4o-Image 以 4.31 继续领跑,但 UniWorld-V1 的表现最接近该行业标杆,标志着其在开源阵营中已实现媲美顶级模型的图像编辑水平。
通过示例与 GPT-4o-Image 进行了定性对比(见图6)。结果显示,UniWorld-V1 在各类感知任务上表现不俗,甚至在许多方面超越了 GPT-4o-Image。尤其在 Canny 边缘检测、法线图生成、HED、分割和草图生成等任务中,UniWorld-V1 的指令理解与执行能力更强。这表明其一体化架构能够提供广泛且准确的图像感知功能,是首个具备如此多样且高保真视觉分析能力的开源统一模型。
04.
wisemodel社区上已经上线了UniWorld-V1模型的镜像,支持一键创建在线体验,欢迎感兴趣的前往社区体验。首次在wisemodel社区创建在线体验的用户,同时还可以获得返现8.88算力券的福利。
首先进入wisemodel社区的“应用”模块,选中“uniworld”的镜像。
选择相应的硬件配置,其他信息都已经预填写了,可以根据需要调整,如果无需调整,则可以直接点击“提交订单”按钮,体验进入后台的启动阶段。
大概等待2-3分钟左右,体验进入运行中的状态。公开状态的在线体验可以直接在“在线体验”的页面上点击相应的体验,进入体验的页面;私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。
体验结束之后,也可以进入“用户中心-我的资源-体验”,在相应的体验后面操作栏,鼠标移到设置,出现“关闭”的按钮,如果创建时设置的自动停止时间,到期后也会自动停止。
欢迎前往wisemodel.cn社区进行体验,成为wisemodel社区的算力用户还可以获得8.88元的算力券返现福利~
编辑丨赵雅鑫
----- END -----
wisemodel相关:
系统升级:
大赛报名:
系列模型:
8
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
热门跟贴