AMD颠覆行业认知！终于攻克FP4大模型训练致命难题

观察者报

2026-05-27 15:25 ·四川

导读：长久以来，AI行业默认FP4仅能用于模型推理，无法支撑大模型训练。而AMD最新论文推翻固有认知，找到FP4训练不稳定的真正元凶，成功实现原生FP4硬件大模型预训练，大幅提升训练效率、降低成本！

在大模型赛道，降精度、控成本是所有厂商的核心竞争方向。

此前，FP8精度训练方案落地，让大模型训练成本大幅压缩。行业随之将目光投向精度更低、算力理论翻倍的FP4技术，试图再次突破成本下限。

但两年以来，FP4训练始终卡在致命瓶颈：训练过程极不稳定、极易崩溃，没有任何方案能完整跑通大模型预训练流程，且保留FP8级别的收敛质量。

业内一直默认，FP4训练崩盘是随机性不足导致的，行业也一直靠随机优化策略尝试修复问题。

直到近日，AMD联合宾夕法尼亚州立大学发布重磅研究论文，彻底推翻行业固有认知，终于破解了困扰业界两年的FP4训练困局！

这也是全球首个在原生FP4硬件上完成大模型全流程预训练的成功实验，正式宣告：FP4告别“推理专属”，成功解锁AI训练能力！

01 颠覆认知！FP4训练不稳的元凶找错了

在此之前，行业主流观点一致认为：FP4训练不稳定，核心原因是量化过程随机性不足，导致误差堆积崩盘。

为此，业内普遍采用随机舍入、随机哈达玛旋转等策略，试图通过增加随机性平滑误差、稳定训练过程。

但AMD团队的对照实验，直接打脸这一固有结论！

研究团队在AMD MI355X显卡上展开多组控制实验，逐段拆解Transformer模型的计算链路，最终精准定位问题根源：

FP4训练崩溃，根本不是随机性不足，而是结构性微缩放误差累积放大！

简单来说，FP4的微缩放量化机制，会在权重梯度（Wgrad）这一核心敏感路径上产生固定结构性误差。

而行业通用的随机优化策略，不仅无法修复误差，反而会持续引入多变的误差模式，进一步放大误差堆积，最终导致训练彻底不收敛、直接崩盘。

02 关键突破！确定性旋转完美解决训练难题

本次研究依托MXFP4开放标准格式展开，区别于传统全局量化，MXFP4采用微缩放设计：将张量切分为小块，每块配置独立动态缩放指数，彻底避免全局异常值拖累整体精度。

即便拥有优质量化架构，权重梯度（Wgrad）量化依旧是FP4训练的核心瓶颈。实验数据显示：

仅开启前向传播、激活梯度FP4量化时，训练Token开销仅增加8%-11%；但一旦开启权重梯度全量FP4量化，开销直接飙升至26%-27%，训练彻底失效。

针对这一核心痛点，团队创新性采用确定性哈达玛旋转方案：

摒弃不稳定的随机变换，全程使用固定统一的正交变换模式，让量化误差保持稳定、不再持续累积。

这一简单且高效的优化，直接将FP4全流程训练的Token开销从27%峰值，压降至仅8%-9%，训练曲线完美贴合主流FP8基线，收敛质量基本无差！

03 实测数据亮眼！训练效率大幅升级

本次实验全程基于AMD Instinct MI355X原生FP4硬件运行，无任何软件模拟，真实落地性极强。研究团队以Llama 3.1-8B模型、C4数据集完成标准预训练，最终实测数据十分亮眼：

✅ 训练单步吞吐提升20%

✅ 收敛Token开销仅增加8%-9%

✅ 端到端训练综合加速9%-10%

这组数据意义重大！在精度从FP8腰斩至FP4的前提下，模型收敛质量几乎持平，还能实现实打实的训练提速，彻底证明了FP4用于大模型训练的可行性。

04 改写行业格局，AI训练迎来低成本时代

这篇重磅论文的落地，并非单纯的技术迭代，而是对整个AI算力行业的重塑，核心价值体现在三点：

1、纠正底层技术误区

终结了两年的行业认知偏差，明确低精度训练不稳优先排查结构性误差，而非盲目叠加随机性，为后续低精度训练研究提供全新方法论。

2、释放海量闲置硬件算力

此前NVIDIA Blackwell、AMD MI350系列的原生FP4算力，仅能用于推理。本次突破让海量FP4算力可全面用于训练，等同于现有AI硬件训练算力直接翻倍。

3、全生态兼容无壁垒

本次采用的MXFP4属于OCP开放标准，获得AMD、NVIDIA、Intel、Meta、微软等七大行业巨头联合支持，跨品牌硬件可移植，无生态锁定风险。

结语

从FP16到FP8，大模型训练成本实现首次断崖式下跌；如今AMD打通FP4训练全链路，正式开启4比特低精度训练新时代

随着FP4技术持续迭代落地，大模型训练成本将再次下探，AI研发门槛进一步降低，行业规模化普及的速度或将全面加快！

你觉得FP4会成为未来大模型训练的主流方案吗？欢迎在评论区留言讨论！

#AI科技 #大模型 #AMD #算力突破 #人工智能技术

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴