AI创业公司Zyphra扔出一颗炸弹:在AMD GPU上训练的80亿参数模型ZAYA1-8B,推理时只调用约7亿参数,却在数学和代码任务上逼平甚至超过部分大模型。权重已开源,商用无限制。
这是个MoE(混合专家)架构的 trick。输入进来,路由器只挑最相关的专家网络干活,其余休眠。Zyphra管这叫"智能密度"——有效参数不到10亿,AIME'25数学竞赛准确率88.3%,加推"马尔可夫型RSA"技术后冲到91.9%。HMMT'25 Feb 82.7%→89.6%,LiveCodeBench代码题65.0%→69.2%。
对比更直观。Mistral-Small-4-119B总参数1190亿,ZAYA1-8B用1/15的体量,部分数学和代码评测反超。AIME'26 89.1%、HMMT'26 71.6%、LCB-v6 64.8%、指令跟随IFEval 85.6%、专业知识GPQA-D 71.0%。Arcee-Trinity-Mini、NVIDIA Nemotron 3 Nano、Intellect-3同台竞技,小个子没掉队。
效率来自三处手术。Compressed Convolutional Attention(CCA)压缩Transformer最吃算力的注意力机制;MLP-based路由器替代线性路由器,专家选择更稳定;可学习残差缩放,防止深层网络内部表征膨胀。输入token过Embedding,经RMSNorm、CCA、Self-Attention、MoE路由器、MLP专家块,流水线精简。
训练栈全是AMD。1024块Instinct MI300X,Pensando Pollara互联,IBM定制的集群。预训练、持续预训练、监督微调全程AMD环境。后训练更狠:推理预热、大规模强化学习、数学代码专项强化学习、RLHF+RLAIF打磨对话质量。斜线图表显示,强化学习平均拉分16.9个点,AIME、HMMT、IFEval、IFBench全线飘红。
"马尔可夫型RSA"是另一张牌。不堆权重,堆推理时的计算。并行生成N条推理链,只抽每条末尾片段,拼成聚合prompt再喂给模型。长思考不膨胀上下文,要点接力,精度逐轮提纯。Zyphra没透露具体迭代轮数,但放话这是"测试时计算"路线的新玩法。
行业信号明确:AMD生态能出能打的产品,MoE+推理时计算的小模型路线在验证,开源权重+商用授权在抢开发者。Zyphra的赌注是,未来AI竞赛不全看参数规模,看谁能用更少资源榨出更多智能。
热门跟贴