这一领先的开放式全模态推理模型可提供更高的效率和准确性,能够为计算机操作、文档智能和音频-视频推理等智能体工作流提供动力。
如今的 AI 智能体系统需要分别调用视觉、语音和语言模型 —— 而在模型间传递数据的过程中,不仅耗时,还会丢失上下文信息。
最新发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放式多模态模型,它将上述功能集成至一个系统中,使智能体能够对视频、音频、图像和文本进行高级推理,从而提供更快、更智能的响应。这一出色的模型为企业和开发者提供了一条生产路径,帮助其构建更高效且更准确的多模态 AI 智能体,并赋予他们完全的部署灵活性与控制权。
Nemotron 3 Nano Omni 助力打造更快、更精简的多模态智能体
通过在其 30B-A3B 的混合专家模型 (MoE) 架构中结合视觉和音频编码器,Nemotron 3 Nano Omni 无需独立的感知模型,从而大规模提高推理效率。它将这种效率与强大的多模态感知准确性相结合,使 AI 系统在保持相同交互性能的情况下,实现比其他开放式全模态模型高 9 倍的吞吐量。因此,其能够在不牺牲响应速度或质量的前提下降低成本并提高可扩展性。
在智能体系统中,Nemotron 3 Nano Omni 可以与专有云模型或其他 NVIDIA Nemotron 开放模型,例如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra,同时也可结合其他供应商的专有模型协同工作,来支持计算机操作、文档智能和音频-视频推理等智能体工作流中的子智能体。
- 计算机操作智能体 —— Nemotron 3 Nano Omni 为智能体提供感知回路,帮助其在图形用户界面导航、对屏幕内容进行推理,并理解随时间变化的用户界面状态。H Company 最新推出的由 Nemotron 3 Nano Omni 驱动的计算机操作智能体,采用 1920x1080 像素的原生输入分辨率,以实现高保真视觉推理。在对 OSWorld 基准测试的初步评估中,这种集成在导航复杂图形界面上实现了重大飞跃,并利用了 Nemotron 3 Nano Omni 处理超高分辨率图像的能力。
- 文档智能 —— 解析文档、图表、表格、屏幕截图和混合媒体输入,使智能体能够连贯地推理视觉结构和文本内容。这对企业分析和合规性工作流至关重要。
- 音频和视频理解 —— 针对客户服务、研究和监测工作流,Nemotron 3 Nano Omni 能够保持音频-视频上下文,将所说、所显示和所记录的内容绑定到单个推理流中,而非毫无关联的摘要。
开放且可定制,随处可部署
Nemotron 3 Nano Omni 发布时附带开放权重、数据集和训练技术,赋予组织对模型定制和部署方式的完全透明度与控制力。
其开放、轻量级的架构可支持从 NVIDIA Jetson 硬件、NVIDIA DGX Spark 等本地系统到数据中心和云环境的一致性部署。
以上为摘要内容,请点击链接阅读完整内容:NVIDIA 发布 Nemotron 3 Nano Omni 模型,融合视觉、音频和语言,助力 AI 智能体效率提升高达 9 倍 | NVIDIA 英伟达博客
热门跟贴