导读:长久以来,AI行业默认FP4仅能用于模型推理,无法支撑大模型训练。而AMD最新论文推翻固有认知,找到FP4训练不稳定的真正元凶,成功实现原生FP4硬件大模型预训练,大幅提升训练效率、降低成本!

打开网易新闻 查看精彩图片

在大模型赛道,降精度、控成本是所有厂商的核心竞争方向。

此前,FP8精度训练方案落地,让大模型训练成本大幅压缩。行业随之将目光投向精度更低、算力理论翻倍的FP4技术,试图再次突破成本下限。

但两年以来,FP4训练始终卡在致命瓶颈:训练过程极不稳定、极易崩溃,没有任何方案能完整跑通大模型预训练流程,且保留FP8级别的收敛质量。

业内一直默认,FP4训练崩盘是随机性不足导致的,行业也一直靠随机优化策略尝试修复问题。

直到近日,AMD联合宾夕法尼亚州立大学发布重磅研究论文,彻底推翻行业固有认知,终于破解了困扰业界两年的FP4训练困局!

这也是全球首个在原生FP4硬件上完成大模型全流程预训练的成功实验,正式宣告:FP4告别“推理专属”,成功解锁AI训练能力!

01 颠覆认知!FP4训练不稳的元凶找错了

在此之前,行业主流观点一致认为:FP4训练不稳定,核心原因是量化过程随机性不足,导致误差堆积崩盘。

为此,业内普遍采用随机舍入、随机哈达玛旋转等策略,试图通过增加随机性平滑误差、稳定训练过程。

但AMD团队的对照实验,直接打脸这一固有结论!

研究团队在AMD MI355X显卡上展开多组控制实验,逐段拆解Transformer模型的计算链路,最终精准定位问题根源:

FP4训练崩溃,根本不是随机性不足,而是结构性微缩放误差累积放大!

简单来说,FP4的微缩放量化机制,会在权重梯度(Wgrad)这一核心敏感路径上产生固定结构性误差。

而行业通用的随机优化策略,不仅无法修复误差,反而会持续引入多变的误差模式,进一步放大误差堆积,最终导致训练彻底不收敛、直接崩盘。

02 关键突破!确定性旋转完美解决训练难题

本次研究依托MXFP4开放标准格式展开,区别于传统全局量化,MXFP4采用微缩放设计:将张量切分为小块,每块配置独立动态缩放指数,彻底避免全局异常值拖累整体精度。

即便拥有优质量化架构,权重梯度(Wgrad)量化依旧是FP4训练的核心瓶颈。实验数据显示:

仅开启前向传播、激活梯度FP4量化时,训练Token开销仅增加8%-11%;但一旦开启权重梯度全量FP4量化,开销直接飙升至26%-27%,训练彻底失效。

针对这一核心痛点,团队创新性采用确定性哈达玛旋转方案:

摒弃不稳定的随机变换,全程使用固定统一的正交变换模式,让量化误差保持稳定、不再持续累积。

这一简单且高效的优化,直接将FP4全流程训练的Token开销从27%峰值,压降至仅8%-9%,训练曲线完美贴合主流FP8基线,收敛质量基本无差!

03 实测数据亮眼!训练效率大幅升级

本次实验全程基于AMD Instinct MI355X原生FP4硬件运行,无任何软件模拟,真实落地性极强。研究团队以Llama 3.1-8B模型、C4数据集完成标准预训练,最终实测数据十分亮眼:

✅ 训练单步吞吐提升20%

✅ 收敛Token开销仅增加8%-9%

✅ 端到端训练综合加速9%-10%

这组数据意义重大!在精度从FP8腰斩至FP4的前提下,模型收敛质量几乎持平,还能实现实打实的训练提速,彻底证明了FP4用于大模型训练的可行性。

04 改写行业格局,AI训练迎来低成本时代

这篇重磅论文的落地,并非单纯的技术迭代,而是对整个AI算力行业的重塑,核心价值体现在三点:

1、纠正底层技术误区

终结了两年的行业认知偏差,明确低精度训练不稳优先排查结构性误差,而非盲目叠加随机性,为后续低精度训练研究提供全新方法论。

2、释放海量闲置硬件算力

此前NVIDIA Blackwell、AMD MI350系列的原生FP4算力,仅能用于推理。本次突破让海量FP4算力可全面用于训练,等同于现有AI硬件训练算力直接翻倍。

3、全生态兼容无壁垒

本次采用的MXFP4属于OCP开放标准,获得AMD、NVIDIA、Intel、Meta、微软等七大行业巨头联合支持,跨品牌硬件可移植,无生态锁定风险。

结语

从FP16到FP8,大模型训练成本实现首次断崖式下跌;如今AMD打通FP4训练全链路,正式开启4比特低精度训练新时代

随着FP4技术持续迭代落地,大模型训练成本将再次下探,AI研发门槛进一步降低,行业规模化普及的速度或将全面加快!

你觉得FP4会成为未来大模型训练的主流方案吗?欢迎在评论区留言讨论!

#AI科技 #大模型 #AMD #算力突破 #人工智能技术