打开网易新闻 查看精彩图片

英伟达发布了一款专注于推理能力的新型AI模型,该模型结合了多种神经网络架构,旨在提升企业系统处理复杂任务和自动化的能力。

该公司表示,其Nemotron 3 Super模型融合了Mamba序列建模、Transformer注意力机制和专家混合路由技术,用以支持所谓的"智能体"AI系统,这些系统能够在企业应用中规划和执行多步骤工作流。

英伟达在声明中指出,多智能体系统生成的Token数量可能比标准聊天交互多15倍。这可能导致"上下文爆炸"问题,使智能体偏离原始目标并增加成本,因为每个子任务都需要使用大型推理模型。

"我们发布Nemotron 3 Super正是为了解决这些限制,"英伟达表示。"这个新的Super模型拥有1200亿总参数和120亿活跃参数,为软件开发和网络安全分类等复杂多智能体应用提供最大的计算效率和准确性。"

英伟达表示,该模型采用开放权重、数据集和训练方案发布,允许开发者对其进行修改并在自己的基础设施上部署。

这一发布反映了AI行业的更广泛转变,供应商正从聊天机器人转向设计用于驱动自主AI智能体的模型。

Gartner分析师总监Jaishiv Prakash表示:"增强的推理能力直接支持更好的任务规划、错误纠正和工作流分解,这些共同提高了AI智能体在企业使用中的可靠性。然而,智能体系统的成功不仅取决于模型能力,还取决于整体系统架构,包括协调、数据集成、上下文管理和治理。"

Nemotron 3 Super体现了英伟达在改善涉及持续推理和长上下文处理的企业AI工作负载性能方面的努力。分析师称,该模型的混合架构可以帮助组织在现有基础设施上更高效地运行复杂的智能体工作负载。

Forrester副总裁兼首席分析师Charlie Dai表示:"Nemotron 3 Super结合了Mamba的线性时间序列处理与Transformer注意力和专家混合路由,为长上下文和多步骤工作负载提供了比纯Transformer更高的吞吐量、更低的延迟和更好的内存效率。对企业而言,这意味着更低的总体拥有成本、更好的本地或主权GPU集群利用率,以及更快的智能体执行速度。"

Kadence International高级副总裁Tulika Sheel表示,该模型的架构设计为每个任务只激活参数的子集,这有助于提高效率。

"这种设计显著提升了吞吐量并降低了计算成本,同时保持了准确性,"Sheel说道。"对企业来说,这可以转化为更快的推理、长上下文工作负载的更好性能,以及大语言模型更具成本效益的部署。"

开放推理模型正在成为寻求对AI系统构建和部署拥有更大控制权的企业的一个选择。麦肯锡公司的研究将这种兴趣归因于强大的性能、易用性,以及与专有替代方案相比更低的实施和维护成本。

"因此,许多组织可能会采用混合策略,将开放模型用于内部工作负载,将专有模型用于外部或高性能任务,"Sheel说道。"开放推理模型可能推动企业转向更可定制的、自托管的AI策略,而非完全依赖专有平台。"

分析师还表示,随着企业将AI扩展到金融、医疗保健和政府等受监管行业,微调和检查模型的能力变得越来越重要。

"开放推理模型通过支持微调、检查和本地部署,为企业提供了专有基础模型的可靠替代方案,"Dai表示。"这支持领域逻辑的定制、法规合规性和数据驻留,同时减少对封闭API和基于使用量定价的依赖。"

Q&A

Q1:Nemotron 3 Super模型的主要特点是什么?

A:Nemotron 3 Super是英伟达推出的1200亿总参数、120亿活跃参数的AI模型,融合了Mamba序列建模、Transformer注意力机制和专家混合路由技术,专门为复杂多智能体应用如软件开发和网络安全分类提供最大的计算效率和准确性。

Q2:为什么企业需要专门的推理模型来支持AI智能体?

A:多智能体系统生成的Token数量比标准聊天交互多15倍,容易导致"上下文爆炸"问题,使智能体偏离原始目标并增加成本。Nemotron 3 Super通过混合架构设计,为每个任务只激活参数子集,显著提升吞吐量并降低计算成本。

Q3:开放推理模型对企业有什么优势?

A:开放推理模型支持微调、检查和本地部署,为企业提供了专有模型的可靠替代方案,支持领域逻辑定制、法规合规性和数据驻留要求,同时减少对封闭API和基于使用量定价的依赖,降低总体拥有成本。