来源:市场资讯

(来源:网易智能)

2月11日,蚂蚁集团开源发布全模态大模型 Ming-flash-omni 2.0。据悉,该模型在视觉语言理解、语音可控生成、图像生成与编辑等多项公开基准测试中表现突出,部分指标超过 Gemini 2.5 Pro,成为当前开源全模态大模型的新一代性能标杆。

打开网易新闻 查看精彩图片

图注:Ming-flash-omni 2.0在视觉语言理解、语音可控生成、图像生成与编辑等核心领域实测表现

据介绍,Ming-flash-omni 2.0基于 Ling-2.0架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大方向进行系统优化。视觉方面,模型通过亿级细粒度数据与难例训练策略,提升对复杂物体与细节场景的识别能力;图像方面,增强复杂编辑稳定性,支持光影调整、场景替换、人物姿态优化等多种生成与编辑能力;音频方面,实现语音、音效与音乐同轨生成,并支持自然语言对音色、语速、情绪、方言等参数进行精细控制。

值得关注的是,该模型被称为业界首个“全场景音频统一生成模型”,可在同一音轨中同时生成语音、环境音与音乐,并支持零样本音色克隆与定制。在推理阶段,模型实现3.1Hz 的低推理帧率,可完成分钟级长音频实时高保真生成,在推理效率与成本控制上保持领先。

业内普遍认为,多模态大模型正从“多模型拼接”走向统一架构。Ming-flash-omni 2.0的开源将以“可复用底座”形式向开发者开放视觉、语音与生成能力,降低多模型串联复杂度与成本,为端到端多模态应用开发提供统一入口。

百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

目前,Ming-flash-omni 2.0的模型权重与推理代码已在 Hugging Face 等开源社区发布,开发者亦可通过蚂蚁百灵 Ling Studio 平台在线体验与调用。(袁宁)