始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。

打开网易新闻 查看精彩图片

近年来,扩散模型在图像生成领域掀起了技术革新浪潮,其优异的生成质量和可控性推动了图像编辑、风格迁移、图像修复等众多视觉任务的快速发展。

然而,尽管生成模型能力不断增强,当前主流图像生成方法仍普遍采用“一个任务对应一个模型”的设计范式。随着任务需求的增加,该范式在实际应用中具有明显的局限性。

这种任务特定模型的设计,意味着每新增一种任务需求都可能需要重新构建训练数据、设计架构、训练模型,成本高昂,维护复杂,扩展性差。其次,当前部分模型尝试通过语言指令定义任务目标,但由于视觉任务的复杂性以及模态间的语义鸿沟,语言指导往往存在理解歧义,难以精准传达任务目标,从而影响生成效果与模型的泛化能力。

并且由于视觉任务天然具有高度异质性,各任务之间数据分布割裂、关联较弱,使得现有模型在训练过程中难以有效学习通用知识,进一步限制了其泛化能力。

为应对上述挑战,研究团队提出全新一代图像生成框架-VisualCloze。它通过视觉上下文学习(Visual In-Context Learning)使模型理解任务意图,并完成精准生成。VisualCloze具有高度扩展性和强泛化性,支持多种视觉生成任务,甚至可以泛化到许多训练时完全没有见过的任务。现已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

打开网易新闻 查看精彩图片

模型地址

https://wisemodel.cn/organization/VisualCloze

 VisualCloze 开源上线!统一图像生成的通用范式
打开网易新闻 查看更多视频
VisualCloze 开源上线!统一图像生成的通用范式

01.

核心亮点:解锁视觉生成新范式

得益于视觉上下文学习(Visual In-Context Learning)机制,VisualCloze 展现出强大的多任务学习能力与泛化能力,在统一模型框架下实现多任务处理与推理。

广泛的任务支持

无需切换模型,VisualCloze 即可灵活支持图像修复、编辑、风格迁移、条件生成等多种主流视觉任务,覆盖日常应用的主要场景。

打开网易新闻 查看精彩图片

新任务泛化能力

通过少量示例图的视觉示范,VisuaCloze能够理解任务意图,快速适配训练中未见过的新任务,显著提升适应性与灵活性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

任务统一处理

除了独立支持特定单一任务外,VisualCloze 还能通过视觉上下文学习将多个任务融合为一步完成,实现任务链的统一推理,提升多任务组合链路的处理效率

打开网易新闻 查看精彩图片

反向生成能力

在无需额外训练的前提下,模型还可执行逆向任务,即从目标图像中反推出条件输入,如恢复其风格、布局、语义信息。

打开网易新闻 查看精彩图片

02.

核心技术点:统一模型,灵活泛化

VisualCloze实现了一模型通多任务,其核心技术点如下:

视觉上下文学习:摆脱语言束缚

不同于以往依赖文字描述的任务提示方式,VisualCloze 使用视觉上下文学习的方式理解任务需求。仅需提供若干输入输出图像对作为任务示例,模型即可理解用户意图并生成目标图像。这种方式天然适合视觉任务,极大减少了任务歧义。

打开网易新闻 查看精彩图片

统一生成范式:兼容现有强基座模型

为了让模型通过视觉上下文学习看图识意,我们将包括上下文任务示例图像在内的全部图像以及条件图像全部以网格布局拼接为一张图像。作为输入,让模型从这张拼接图像中观察示例示例,从而填充出缺失的目标区域。

同时,这一设计让VisualCloze的目标与图像补全任务高度一致,因此我们可以直接在SOTA图像补全模型如FLUX.1-Fill-dev的基础上构建VisualCloze,而无需对模型结构做任何修改,充分继承基础模型的强大生成能力。

此外,不同图像常常具有不一致的尺寸或宽高比,这给拼接带来了极大挑战。直接裁剪或拉伸不仅影响图像质量,还可能破坏图像的空间语义,进而影响任务理解。

为解决这一问题,VisualCloze借助了FLUX.1-Fill-dev中引入的三维旋转位置编码(3D-RoPE)机制,通过在时序维度拼接任务示例和条件图像,而非强行拼成整齐的网格图像,从而自然地对不同尺寸的图像进行对齐与融合。

打开网易新闻 查看精彩图片

Graph200k图结构数据集:密集任务关联

在自然语言处理领域,众多任务之间存在大量交集,例如翻译、问答和文本摘要等往往可以共享语义表示,从而实现有效的跨任务迁移学习。然而,在视觉生成领域,不同任务之间差异巨大,天然呈现出高度异质性与任务割裂,这不利于模型学习可迁移的通用知识。

为此,我们提出了全新的图结构多任务数据集 Graph200K。该数据集构建于 Subjects200K 基础之上,为每张图像提供了五大元任务的多重标注,包括:条件生成,图像修复,图像编辑,IP保留,以及风格迁移。

这些元任务之间可灵活组合,支持构建出多种具有复杂条件依赖的复合任务,极大提升了任务分布的紧密度与语义可转移性。

例如,如下图所示,我们可以将主体提取 + 布局控制 + 风格迁移组合为一个复合任务,生成同时保留目标主体、遵循特定布局、并呈现指定风格的个性化艺术图像。这种设计使得模型在训练过程中能够感知并学习任务之间的内在关联,有效提升泛化能力与多任务协同能力。

打开网易新闻 查看精彩图片

03.

wisemodel在线体验

W isemodel社区支持 用户通过镜像体验模型在线服务 ,进入社区应用模块,点击 VisualCloze—部署在线体验即可。

打开网易新闻 查看精彩图片

编辑:成蕴年

----- END -----

打开网易新闻 查看精彩图片

wisemodel相关:

系统升级:

大赛报名:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看更多