日前,AI创企Stability AI方面发布、并开源新一代文生图模型Stable Diffusion 3 Medium(以下简称为SD3 Medium),并号称是“迄今为止最先进的开源文生图模型”,其性能甚至超过了Midjourney 6。目前开发者已可以从Hugging Face上下载该模型,其中非商业用途可免费使用,商业用途则需要先获得授权许可。

据了解,作为Stable Diffusion 3系列大模型家族中的最新成员,SD3 Medium使用了包含10亿张图片的公开和合成数据进行预训练。该模型的参数规模仅20亿、小于大部分Stable Diffusion 3模型,因此也意味着其可以在消费级GPU上运行。此外SD3 Medium还与英伟达、AMD合作进行了特定硬件的优化,性能最高可提升50%。

据Stability AI方面透露,SD3 Medium具有5大显著特点。其一,SD3 Medium可生成整体质量出色、拥有照片级真实感的图像,并支持多种风格。同时通过16通道VAE等创新,该模型还成功解决了其他模型生成图像中常见的人物手部及面部真实感不足等缺陷。

其二,SD3 Medium具有更强的提示词理解能力,能够理解涉及空间推理、构图元素、动作及风格等概念的大段、高复杂度提示词;其三,凭借Diffusion Transformer架构,SD3 Medium实现了“前所未有”的文本输出质量,能够减少拼写、字距调整、信函格式及字母间距等方面的错误;其四,由于所占用的VRAM空间小,所以SD3 Medium适合在标准消费级GPU上运行,且不会影响性能;最后一点则是SD3 Medium支持微调,能够从小型数据集中吸纳微小细节,可满足定制化需求。

对此Stability AI方面表示,SD3 Medium代表了生成式人工智能发展的一个重要里程碑,并延续了该公司致力于使这项强大技术民主化的承诺。同时Stability方面还强调了其安全、负责任的人工智能实践原则,并表示已经采取合理措施以防范恶意行为者对SD3 Medium的滥用。

【本文图片来自网络】