80亿参数只激活7亿，AMD训练的小模型追上巨头|amd训练|nvidia|开源模型|路由器

AI创业公司Zyphra扔出一颗炸弹：在AMD GPU上训练的80亿参数模型ZAYA1-8B，推理时只调用约7亿参数，却在数学和代码任务上逼平甚至超过部分大模型。权重已开源，商用无限制。

这是个MoE（混合专家）架构的 trick。输入进来，路由器只挑最相关的专家网络干活，其余休眠。Zyphra管这叫"智能密度"——有效参数不到10亿，AIME'25数学竞赛准确率88.3%，加推"马尔可夫型RSA"技术后冲到91.9%。HMMT'25 Feb 82.7%→89.6%，LiveCodeBench代码题65.0%→69.2%。

对比更直观。Mistral-Small-4-119B总参数1190亿，ZAYA1-8B用1/15的体量，部分数学和代码评测反超。AIME'26 89.1%、HMMT'26 71.6%、LCB-v6 64.8%、指令跟随IFEval 85.6%、专业知识GPQA-D 71.0%。Arcee-Trinity-Mini、NVIDIA Nemotron 3 Nano、Intellect-3同台竞技，小个子没掉队。

效率来自三处手术。Compressed Convolutional Attention（CCA）压缩Transformer最吃算力的注意力机制；MLP-based路由器替代线性路由器，专家选择更稳定；可学习残差缩放，防止深层网络内部表征膨胀。输入token过Embedding，经RMSNorm、CCA、Self-Attention、MoE路由器、MLP专家块，流水线精简。

训练栈全是AMD。1024块Instinct MI300X，Pensando Pollara互联，IBM定制的集群。预训练、持续预训练、监督微调全程AMD环境。后训练更狠：推理预热、大规模强化学习、数学代码专项强化学习、RLHF+RLAIF打磨对话质量。斜线图表显示，强化学习平均拉分16.9个点，AIME、HMMT、IFEval、IFBench全线飘红。