这项由英伟达(NVIDIA)研究团队主导的研究成果,以技术报告形式于2026年4月14日发布,论文编号为arXiv:2604.12374v1,分类在计算机科学机器学习领域。有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。
每当人们谈起AI模型,总会面临一个两难困境:要么模型聪明但运行慢,要么跑得快但能力弱。这就像选车一样——豪华轿车舒适但油耗高,经济型小车省油但动力不足。英伟达的研究团队偏偏不信这个邪,他们推出了一款名为Nemotron 3 Super的模型,试图在性能与效率之间找到一条全新的平衡之路。
这款模型拥有1200亿个参数(可以理解为模型"大脑神经元"的数量),但实际运行时只需激活其中约120亿个,相当于一台拥有豪华配置的汽车,但只在需要时启动相应的功能模块,既保留了整体实力,又大幅降低了运行成本。相比同量级的竞争对手GPT-OSS-120B,它的推理速度高出2.2倍;而面对另一对手Qwen3.5-122B,这个差距更是扩大到惊人的7.5倍。更重要的是,它的所有训练方法、数据集和模型权重都向公众开放,任何人都可以在HuggingFace平台免费获取。
那么,英伟达是如何在这条看似不可能的道路上走通的?答案藏在一套精妙的技术组合里。
一、聪明的"专家团队":LatentMoE架构的奥秘
理解Nemotron 3 Super的核心,需要先明白一个比喻。普通的AI模型处理每个问题时,都像让一个庞大团队里的所有人同时参与讨论,效率低下且资源浪费。而混合专家模型(MoE)的思路是:把这个大团队分成许多小组,每次只让最相关的几个小组出来处理当前问题,其他人继续休息。
Nemotron 3 Super更进一步,引入了一种名为LatentMoE的新型专家架构。这个创新的出发点是一个很接地气的工程问题——在实际部署AI模型时,瓶颈往往不是计算能力,而是"搬运数据"的速度。好比一家餐厅的厨师技术很好,但如果传菜通道太窄,食物就是送不快。
英伟达的研究团队对现有专家模型做了深入的系统性分析,归纳出几条关键规律。在低延迟场景下,内存带宽是最大的瓶颈,而每个专家模块的内存占用取决于隐藏维度和中间维度两个参数,只要缩小其中之一就能降低成本。在高吞吐量场景下,分布式部署时各节点之间传输数据的通信量也随着激活专家数量的增加而线性增长。但如果为了节省通信和内存而过度压缩模型,模型的理解能力又会崩溃——就像把传菜通道压缩到只能传一根筷子,效率提升了但功能也废了。
LatentMoE的解法是一个精妙的权衡:先用一个"压缩投影矩阵"把每个输入数据从高维空间降到低维的潜在空间(可以理解为先把一箱货物打成真空压缩包),然后在这个压缩空间里进行专家路由和计算,最后再展开回原始维度。由于压缩后的数据体积更小,传输成本大幅下降。节省下来的通信和内存预算,被用来增加专家的总数量和每次激活的专家数量,从而提升模型对不同任务的适应能力。整个过程就像把原本只能同时开4个收费站的收费站广场,通过把车道宽度减半、收费站数量加倍,变成了能同时处理更多车辆的系统,而总占地面积没有增加。
具体到Nemotron 3 Super的参数配置,模型共拥有512个专家模块,每次处理一个数据单元时会同时激活其中的22个,潜在空间维度设置为1024。路由机制、共享专家部分以及模型中的注意力层,则维持在原始高维度运算,因为这些模块对整体质量的影响更大,不适合压缩。
二、"草稿员"机制:多词预测如何让模型跑得更快
传统AI模型生成文字的方式,就像一个打字员每次只能想好一个字才能按下键盘。而Nemotron 3 Super引入了一种叫做多词预测(MTP)的机制,本质上是在主模型旁边培养了一个"草稿员"。
这个草稿员的工作是:在主模型思考下一个词的同时,自己预先猜测接下来的几个词。主模型只需快速扫一眼草稿员的猜测,如果猜对了就直接采纳,省去了自己逐一计算的时间;猜错了再由主模型修正。这种机制被称为投机解码。关键在于,验证草稿员的猜测只需要主模型做一次前向传递,而不是逐词生成,时间开销极低。
现有的多词预测实现方案普遍存在一个缺陷:每个预测头只被训练来预测固定偏移量的词(比如第2个词、第3个词),当需要草稿员猜测更多词时,就只能让这个头递归地预测自己之前的预测结果。这就像让一个只练习过猜明天天气的气象员,去预测未来两周的每一天——误差会随着预测深度迅速累积。
Nemotron 3 Super的解法是让两个预测头共享参数,在训练阶段就同时暴露在多个不同的预测偏移量下。这使得预测头学会了一种更通用的"未来状态感知能力",而不是专注于某个固定偏移。在实际推理时,同一个预测头可以被反复调用来生成长串草稿,且接受率随草稿深度的衰减速度明显慢于独立训练的多头方案。
英伟达团队用一个专门针对投机解码场景的基准测试SPEED-Bench来评估这项机制的实际效果。在草稿长度为7的情况下,Nemotron 3 Super的平均接受长度达到了3.45个词,超越了DeepSeek-R1的2.70,且在大多数类别上与Qwen3-Next的3.33持平或更优。在代码生成、多语言、问答等多个任务类别上,Nemotron 3 Super均取得了所有模型中最高的接受率。尤其是在草稿索引较大(第4到第7个词)的位置,优势最为明显,说明共享权重设计在长程递归预测中的稳定性确实更强。
从实际部署效果来看,在B300 GPU上,将草稿深度从0增加到3,能在相同的用户响应延迟下实现明显更高的系统总吞吐量,吞吐-延迟帕累托曲线整体向右上方移动。
三、"混血架构":为什么要把两种截然不同的机制混在一起
Nemotron 3 Super的88层网络结构并非全部由同一种模块构成,而是将两种不同特性的模块交织组合在一起,这被称为混合架构。
第一种是Mamba-2块,一种基于状态空间的序列建模模块。它的核心特性是在生成文字时,不需要把之前所有内容都装进内存,而是用一个固定大小的"状态向量"来浓缩历史信息,就像一个人在开会时只记笔记的摘要,而不是逐字逐句地把所有发言都记下来。这种方式在处理极长文本时内存开销几乎不随长度增加,速度更快。
第二种是自注意力层,也就是传统Transformer模型的核心模块。它的特性恰恰相反——能让模型在生成每个词时直接"回望"上下文中的任意位置,捕捉长距离的语义关联。但代价是随着文本长度增加,内存消耗呈平方级增长。
单独使用Mamba-2会损失全局信息感知能力,单独使用注意力层则会在长文本场景下内存爆炸。Nemotron 3 Super的策略是:大量使用Mamba-2负责日常的序列处理,仅在特定位置插入少量自注意力层作为"全局锚点",让模型在关键节点上做一次完整的全局视野扫描,平衡两者的优势。
从具体层级排布来看,整个88层网络按照周期性模式排列,每个自注意力层之间穿插多个Mamba-2与专家层组合。注意力层采用分组查询注意力机制,设有32个查询头和2个键值头,头维度为128,这种配置在维持表达能力的同时降低了键值缓存的内存占用。模型不使用位置编码、dropout和线性层偏置项,采用RMSNorm进行归一化,嵌入层与输出层权重解耦。这一架构最终支持高达100万词元的上下文长度。
四、用最低精度预训练:NVFP4格式的冒险与稳定
预训练一个大模型通常需要用很高的数值精度(比如BF16,每个数字占用16位存储空间)来确保训练过程稳定。精度越低,计算速度越快、内存占用越少,但也越容易出现训练不稳定或精度损失的问题。
Nemotron 3 Super是英伟达Nemotron系列中第一个在预训练阶段全程使用NVFP4格式的模型——这是一种每个数字只用4位存储的超低精度格式,比BF16节省了75%的存储空间。英伟达将这种格式描述为"E2M1",即2位指数、1位尾数加1位符号,配合16元素为一组的微块缩放因子和FP8精度的块级缩放。这套预训练方案在Blackwell GPU上借助Transformer Engine和cuBLAS实现了高效的低精度矩阵乘法。
当然,不是模型所有部分都使用NVFP4。研究团队针对不同层的特性做了细致的精度分配。网络最后15%的层保留在BF16,是为了维持训练末期的稳定性;潜在投影层保留在BF16,因为其在每步计算中占用时间极少,不值得冒精度损失的风险;多词预测层保留在BF16,以维护预测能力;注意力层的QKV和输出投影保留在BF16,确保这些关键位置的计算精度;而Mamba输出投影层使用MXFP8而非NVFP4,原因是研究团队在小规模实验中发现,将其量化到NVFP4时下溢现象(即数值太小被直接舍零)发生率很高。嵌入层则全程保留在BF16。
训练过程中研究团队观察到一个有趣现象:随着训练推进,部分专家层的权重梯度中零值比例持续增长,到预训练结束时约占全部参数的7%。经过仔细排查,研究团队发现这与NVFP4量化引发的数值下溢密切相关。具体路径是:FC2层(专家的第二个全连接层)的权重在量化后,其反向传播的梯度中出现大量下溢,这些下溢的零值又通过链式法则传递到FC1层的权重梯度,导致FC1梯度中零值激增。用同一架构的Nano版本做对比实验显示,使用NVFP4训练1万亿个词元产生的零值梯度数量,与BF16格式训练100-250亿个词元产生的数量相当——NVFP4在加速"梯度稀疏化"这一自然训练过程方面,比BF16快了大约10到25倍。
研究团队还测试了一个补救方案:在学习率衰减前1万亿词元时,将所有张量的精度提升到MXFP8,然后继续训练约1.6万亿词元。结果显示,虽然训练损失曲线在切换后有所改善,但下游任务的评估精度并没有持续提升。因此,最终发布的模型从头到尾都使用NVFP4预训练方案,没有进行精度切换。
五、喂给模型的25万亿个词:预训练数据的精心配方
Nemotron 3 Super在预训练阶段共处理了25万亿个词元,整个训练分为两个阶段,采用"热身-稳定-衰减"学习率调度策略。学习率在前2000亿词元内从零线性增长到峰值4.5×10^-4,随后保持平稳,在最后5万亿词元内按负平方根曲线衰减到最小值4.5×10^-6。使用AdamW优化器,权重衰减系数0.1,训练序列长度8192,批大小3072条序列,每批约处理2517万个词元。
训练数据来自16个大类,最大的组成部分是网页爬取数据,按照Nemotron-CC分类法被分为中等质量、中高质量和高质量三档,以及对应的合成增强版本。除此之外,数据集还包含维基百科、代码、学术文本、数学数据、多语言内容、高质量PDF文档以及多种合成SFT风格数据集,其中SFT数据进一步细分为通用对话、STEM问答和代码三类。
第一阶段覆盖前20万亿词元,重点在多样性,让模型广泛接触各类知识。第二阶段覆盖后5万亿词元,数据配比向高质量来源倾斜,大幅提高维基百科、高质量PDF等来源的权重,让模型在广泛理解的基础上进一步打磨精度。
研究团队还专门为这次训练生成了几类新的合成数据集,并将其作为Nemotron-Pretraining-Specialized-v1.1开源发布。其中包括一个约1500万对Python编程问题与解答的代码数据集,由GPT-OSS-20B生成题目、GPT-OSS-120B生成答案,经过严格的语法树检验后保留。还有一批无条件生成的算法题,用两种模型以极简提示生成,通过语义去重控制质量。经济学选择题数据集覆盖微观经济学、宏观经济学和计量经济学,由Qwen3-235B-A22B-Thinking模型生成并验证。形式逻辑题数据集涵盖命题逻辑和谓词逻辑的多种推理任务,通过随机注入人名、字母和逻辑符号提高多样性。还有一批MMLU风格的综合选择题,从现有训练辅助集出发,经过多模型扩写和多数投票过滤后获得约350万条经过知识注释的题目。
此外,研究团队还在预训练结束后追加了一个长上下文扩展阶段,使用恒定学习率4.5×10^-6,先以100万词元上下文长度连续预训练340亿个词元,再交替使用100万词元和4096词元序列训练170亿词元,以减轻长上下文训练对数学推理能力的轻微负面影响。
六、"检查点融合":一个省钱又提精度的训练技巧
在预训练的稳定阶段,学习率保持不变,相邻训练步骤之间的模型性能会有明显的随机波动,使得单个检查点(即某一时刻保存的模型快照)难以准确反映模型的真实水平。传统做法是专门运行一次学习率衰减评估,但这会额外消耗大量算力。
研究团队采用了一种叫做"检查点融合"的评估技巧:把最近一段训练窗口内保存的多个检查点,按照模拟学习率衰减的权重系数进行加权平均,得到一个融合模型,然后对这个融合模型做基准测试。这个过程本身计算量极低,却能得到接近实际衰减后模型水平的评估结果。
研究团队评估了125亿、2500亿和5000亿词元三种不同的融合窗口。结果显示,在稳定训练阶段,最优融合方案在12个基准测试上的平均得分比直接测试的原始检查点高出2到4分。在学习率衰减阶段(训练最后5万亿词元),两条曲线逐渐靠拢,到训练结束时基本重合——这与理论预期一致:实际的学习率衰减训练已经达到了融合所能带来的效果。
最终选用于下游对齐训练的基础模型检查点,本身就是一个5000亿词元窗口的融合结果。研究团队指出,这种技术在较短的衰减窗口下效果最佳,对于他们使用的5万亿词元衰减窗口,实际的衰减训练已经足够好,融合带来的额外提升有限。
七、让模型学会"代理人"技能:后训练阶段的全面升级
预训练完成后,模型还是一块未经雕琢的"原石"——它拥有大量知识,但还不知道如何被人类有效使用,也不具备复杂的工具调用或多步骤任务执行能力。后训练阶段就是要把它打磨成一个真正能干活的"智能助手"。
后训练管道分为监督微调(SFT)、强化学习(RL)和多词预测修复四个阶段。监督微调阶段使用超过700万条样本,共约800亿词元,训练模型在各类任务上按照期望格式生成回答。强化学习分三轮:第一轮是多环境可验证奖励强化学习(RLVR),覆盖21种环境类型,共训练3轮;第二轮是专门针对软件工程任务的SWE-RL,消耗约200亿词元;第三轮是基于人类偏好的RLHF,消耗约190亿词元。最后还有一轮多词预测修复阶段,约180亿词元,专门恢复强化学习过程中可能弱化的MTP预测能力。
监督微调阶段引入了一种双阶段损失策略来解决一个实际问题:当训练数据中既有长推理链(输出很长)的样本,又有需要简短直接回答的样本时,如果用统一的平均损失计算,长输出样本会在梯度中占主导,短输出样本的学习效果会被压制。第一阶段使用全局词元平均损失,让模型充分吸收长推理样本的逻辑链条。第二阶段切换为对话级别归一化损失,即先在每条对话内部平均损失,再对所有对话取平均,这样短输出对话得到与长输出对话同等的训练权重,修复了对"长输入、短输出"场景的降级问题。第一阶段使用256K词元序列打包和64的批大小,第二阶段使用512K序列打包,批大小降至32,并加入最长512K词元的长上下文数据。
研究团队还为模型引入了"低努力推理模式",通过加入由GPT-OSS-120B的低努力模式生成的训练样本,教会模型在不需要深度推理的简单任务上生成更简短的回答,避免对所有问题都启动繁重的思考链路。
后训练阶段的数据覆盖范围极为广泛,包括软件工程、代理式编程、长上下文理解、金融推理、CUDA编程、安全对齐、网络搜索、终端操作、多语言翻译、SQL查询、工具调用等十余个专业领域,每个领域都设计了专门的数据生成管道。整个SFT数据配比中,代理类任务占36%,推理类占31%,对话类占23%,长上下文占8%,其余类别合计约2%。
八、强化学习的"游乐场":21种训练环境与创新的代理RL方案
强化学习阶段是让模型真正"学会解决问题"的关键。研究团队构建了21种不同的训练环境,涵盖数学竞赛题、代码题、STEM问答、指令跟随、安全对齐、长上下文理解、谜题以及各类代理任务。每个环境都有明确可验证的奖励信号,比如代码题就看程序能否通过测试用例,数学题就看答案是否正确。
在多环境并行训练方面,研究团队发现同时在所有环境上训练能产生稳定的整体提升,而只专注单一环境训练则会导致其他方面出现严重退化。这验证了多样化训练的必要性。每个训练步骤采样256条提示,每条生成16个回答,批大小4096,最长生成序列从49K词元逐步扩展到64K词元。
软件工程专项强化学习(SWE-RL)作为独立的第二阶段运行,原因是SWE任务的每次推演需要在独立的容器环境中执行完整的代码修改和测试,生成时间远长于普通任务,如果与短序列任务混合会拖慢整体训练节奏。每次推演会启动一个Apptainer容器(类似Docker但不需要root权限),在其中运行OpenHands代理循环,让模型自主探索代码库、提出代码补丁,并由真实的测试套件给出二值奖励。为了增加工具多样性,研究团队还在OpenHands中实现了OpenCode和Codex两种代理类,分别模拟Claude Code和Codex CLI的工具调用格式,使得同一套基础设施能在训练时暴露多种工具风格,提升模型的泛化能力。
对于多轮长程代理任务(如工具调用、网络搜索、终端操作),研究团队引入了一种叫做PivotRL的新方法来平衡效率与效果。纯监督微调的问题在于:模型学会了专家轨迹里的动作序列,但学不到"当不确定时该怎么办";纯端到端强化学习则需要对每个训练样本都在真实环境中完整执行一遍,成本极高。PivotRL的思路是:复用已有的专家轨迹数据,但不是对所有轮次做监督,而是找出专家轨迹中模型对下一步动作"最不确定"的关键节点(称为"枢纽"),只在这些节点上应用强化学习更新,奖励函数被设计为度量模型动作与专家动作的相似度,而非严格要求完全一致。这种方式极大降低了代理RL的计算成本,同时避免了纯SFT的分布外泛化问题。
九、把大模型塞进更小的盒子:量化技术的精细操作
即便是一款已经很高效的模型,在实际部署时还可以通过量化进一步提升推理速度——简单说,就是把模型参数从高精度格式"压缩"成低精度格式存储和计算,从而减少内存占用和运算时间。
研究团队为Nemotron 3 Super提供了两种量化版本。面向Hopper架构GPU的FP8版本(每个数字8位)对MoE专家层、Mamba线性层进行FP8量化,注意力层和嵌入层保留BF16,Mamba状态缓存量化为FP16。面向Blackwell架构GPU的NVFP4版本则更为激进,大多数专家层使用4位NVFP4格式,部分较敏感的层提升到FP8或BF16。
NVFP4量化的难点在于,简单地对所有层应用统一方案会导致精度明显下降。研究团队测试了多种量化策略,最终确定了一种混合方案:权重的分块缩放系数通过最小化权重均方误差来优化(而非默认的取最大值方案),激活值的分块缩放则继续用动态最大值方案,因为激活值的缩放需要在运行时实时计算,不允许离线搜索。
在此基础上,研究团队还使用了一种叫做AutoQuantize的自动混合精度搜索算法,本质是为每一个算子独立选择最优的量化格式。它使用二阶泰勒近似来估计每个算子在不同精度下对最终输出的影响(敏感度),然后在满足总计算成本预算的约束下,求解使总敏感度最小的格式分配方案,这是一个背包问题式的组合优化。搜索过程还需要考虑推理框架的实际约束——比如vLLM和TensorRT-LLM要求同一MoE层内的所有稀疏专家必须使用相同的量化格式,注意力层的QKV投影在融合计算时也需要共享格式。整个量化流程在一台8卡B200节点上不到2小时即可完成,最终模型在20多个基准测试上的中位精度保留了BF16基准的99.8%。
Mamba状态缓存的量化是一个独特的技术挑战。由于Mamba的解码过程是递归的,每一步的量化误差会被传递并累积到后续所有步骤,这与普通的注意力层完全不同。研究团队发现,直接将状态缓存从FP32转换为FP16,会在代码生成任务中导致高达40%的输出冗长度增加——模型开始反复输出多余的内容,就像一个思路混乱的人不停重复同样的话。根因分析表明,FP32到FP16的"最近偶数取整"规则会在量化误差中引入系统性偏差,这种偏差在递归累积后逐渐失控。
十、与竞争对手的正面对决:基准测试成绩单解读
Nemotron 3 Super在预训练后的基础模型评测中,对比了Ling-flash-Base-2.0和GLM-4.5-Air-Base两款同量级模型。在通用知识(MMLU达到86.01)、数学推理(MATH达到84.84,AIME-2024的pass@32达到53.33)、代码生成、常识推理、阅读理解、多语言和长上下文等各类基准上,Nemotron 3 Super在绝大多数指标上均取得最佳成绩,尤其在GPQA-Diamond(高难度科学题)上以60.00分对Ling-flash-Base的36.00和GLM-4.5-Air-Base的23.20形成明显优势。长上下文方面,在64K词元RULER测试中达到92.26,而Ling-flash-Base为72.12,GLM-4.5-Air-Base为80.26;在更长的128K、256K、512K直至100万词元上,Nemotron 3 Super是唯一能完成测试并保持高分的模型。
经过后训练的最终版本,在与GPT-OSS-120B和Qwen3.5-122B-A10B的对比中,整体处于可比水平。在推理任务中,HMMT Feb25(高难数学竞赛题,无工具辅助时93.67,有工具时94.73)超越了两者;在SWE-Bench软件工程任务中(OpenHands框架,60.47),显著超越GPT-OSS-120B的41.9,但略低于Qwen3.5-122B的66.40;在长上下文RULER测试中(512K词元95.22,100万词元91.64),同样明显优于GPT-OSS-120B,与Qwen3.5-122B基本持平。
在推理速度方面,研究团队在B200 GPU上使用vLLM和TRT-LLM,以8K词元输入、64K词元输出的设置进行基准测试。Nemotron 3 Super BF16版本的相对吞吐量指数为2.2,对应GPT-OSS-120B MXFP4版本的1.0和Qwen3.5-122B BF16版本的0.3,领先幅度十分显著。换句话说,在相同的硬件上,Nemotron 3 Super每秒能处理的请求量是GPT-OSS-120B的2.2倍,是Qwen3.5-122B的7.5倍。
说到底,Nemotron 3 Super真正代表的是一种工程哲学:不是单点的技术突破,而是在架构设计、训练精度、数据配方、后训练流程和量化部署每一个环节都精心优化,最终在精度和效率的曲线上找到了一个更优的位置。对于使用AI服务的普通用户来说,这意味着同样的算力预算能让他们获得更快的响应;对于AI开发者来说,这套完全开放的技术方案提供了一个可以直接复用或在此基础上继续探索的坚实起点。有兴趣深入研究每一项技术细节的读者,可以通过arXiv编号2604.12374查阅完整论文,所有开源模型权重和数据集可在HuggingFace平台获取。
Q&A
Q1:Nemotron 3 Super的推理速度为什么比同量级模型快这么多?
A:主要来自三方面的协同效果。一是LatentMoE架构把专家层的数据传输压缩到更小的潜在空间,降低了内存读取和网络通信的开销;二是Mamba-2模块代替了大部分注意力层,生成长文本时内存不会像传统Transformer那样爆炸式增长;三是多词预测机制让模型每次验证就能接受多个词元,减少了实际的前向传递次数。三者叠加之下,在8K输入、64K输出的场景中,NVFP4版本的吞吐量是Qwen3.5-122B的7.5倍。
Q2:Nemotron 3 Super用NVFP4格式预训练会不会让模型精度变差?
A:研究团队的实验显示,整体精度损失极小。他们观察到NVFP4确实会加速权重梯度中零值的积累,但通过精细的精度分配策略(对敏感层保留BF16或MXFP8),以及后续的量化优化(混合精度AutoQuantize),最终发布的NVFP4推理版本在20多个基准测试上的中位精度保留了BF16版本的99.8%,基本没有体感上的差距。
Q3:LatentMoE和普通MoE架构相比,实际的工程效益体现在哪里?
A:核心区别在于专家计算和路由通信都在一个压缩后的低维潜在空间中进行,而非原始的高维隐藏空间。这使得每个专家的参数量更小、节点间传输的数据量更少,节省出来的预算被用于增加专家总数(512个)和每次激活数量(22个),让模型在相近的推理成本下覆盖更丰富的知识组合。路由网络、共享专家和注意力层仍在高维空间运算,确保全局感知能力不受影响。
热门跟贴