4月28日消息,商汤科技发布并开源日日新SenseNova U1系列原生理解生成统一模型。它基于商汤于今年三月自主研发的 NEO-unify架构,在单一模型架构上统一了多模态理解、推理与生成。

据介绍,NEO-unify架构彻底摒弃了主流的拼接式,去除了视觉编码器(VE)和变分自编码器(VAE),重新构建了统一的表征空间,并且深入融入每一层计算中,从而实现从模态集成向原生统一的范式跨越。据了解,SenseNova U1系列模型能够将语言与视觉信息作为统一的复合体直接建模,实现语言和视觉信息的高效协同,让理解与生成能力同步增强,在保留语义丰富度的同时,维持像素级的视觉保真度。

打开网易新闻 查看精彩图片

(SenseNova U1 Lite的商业级复杂信息图生成能力演示)

在逻辑推理与空间智能等方向上,它能够深度理解物理世界的复杂布局与精细关系;在未来,它还能为机器人提供具身大脑,实现在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程,为推动技术与产业发展提供重要基础与关键引擎。

本次开源发布的是 SenseNova U1的轻量版系列 SenseNova U1 Lite。它包含两个不同规格的模型:SenseNova-U1-8B-MoT:基于稠密骨干网络;SenseNova-U1-A3B-MoT:基于混合专家(MoE) 骨干网络

商汤科技方面表示,我们正在沿着当前的技术路径继续 Scale,计划在未来推出体量更大的模型。我们相信,基于高效的原生架构,可以以低得多的计算成本达到国际顶尖模型的水平。

商汤科技方面提到,原生统一的多模态智能是通往 AGI 的必经之路。未来,还将持续推动开源生态建设,并发布更大参数规模的 U1系列模型。迎社区广大用户和开发者提出宝贵建议,共同定义智能交互的未来。(定西)