导读:长久以来,AI行业默认FP4仅能用于模型推理,无法支撑大模型训练。而AMD最新论文推翻固有认知,找到FP4训练不稳定的真正元凶,成功实现原生FP4硬件大模型预训练,大幅提升训练效率、降低成本!
在大模型赛道,降精度、控成本是所有厂商的核心竞争方向。
此前,FP8精度训练方案落地,让大模型训练成本大幅压缩。行业随之将目光投向精度更低、算力理论翻倍的FP4技术,试图再次突破成本下限。
但两年以来,FP4训练始终卡在致命瓶颈:训练过程极不稳定、极易崩溃,没有任何方案能完整跑通大模型预训练流程,且保留FP8级别的收敛质量。
业内一直默认,FP4训练崩盘是随机性不足导致的,行业也一直靠随机优化策略尝试修复问题。
直到近日,AMD联合宾夕法尼亚州立大学发布重磅研究论文,彻底推翻行业固有认知,终于破解了困扰业界两年的FP4训练困局!
这也是全球首个在原生FP4硬件上完成大模型全流程预训练的成功实验,正式宣告:FP4告别“推理专属”,成功解锁AI训练能力!
01 颠覆认知!FP4训练不稳的元凶找错了
在此之前,行业主流观点一致认为:FP4训练不稳定,核心原因是量化过程随机性不足,导致误差堆积崩盘。
为此,业内普遍采用随机舍入、随机哈达玛旋转等策略,试图通过增加随机性平滑误差、稳定训练过程。
但AMD团队的对照实验,直接打脸这一固有结论!
研究团队在AMD MI355X显卡上展开多组控制实验,逐段拆解Transformer模型的计算链路,最终精准定位问题根源:
FP4训练崩溃,根本不是随机性不足,而是结构性微缩放误差累积放大!
简单来说,FP4的微缩放量化机制,会在权重梯度(Wgrad)这一核心敏感路径上产生固定结构性误差。
而行业通用的随机优化策略,不仅无法修复误差,反而会持续引入多变的误差模式,进一步放大误差堆积,最终导致训练彻底不收敛、直接崩盘。
02 关键突破!确定性旋转完美解决训练难题
本次研究依托MXFP4开放标准格式展开,区别于传统全局量化,MXFP4采用微缩放设计:将张量切分为小块,每块配置独立动态缩放指数,彻底避免全局异常值拖累整体精度。
即便拥有优质量化架构,权重梯度(Wgrad)量化依旧是FP4训练的核心瓶颈。实验数据显示:
仅开启前向传播、激活梯度FP4量化时,训练Token开销仅增加8%-11%;但一旦开启权重梯度全量FP4量化,开销直接飙升至26%-27%,训练彻底失效。
针对这一核心痛点,团队创新性采用确定性哈达玛旋转方案:
摒弃不稳定的随机变换,全程使用固定统一的正交变换模式,让量化误差保持稳定、不再持续累积。
这一简单且高效的优化,直接将FP4全流程训练的Token开销从27%峰值,压降至仅8%-9%,训练曲线完美贴合主流FP8基线,收敛质量基本无差!
03 实测数据亮眼!训练效率大幅升级
本次实验全程基于AMD Instinct MI355X原生FP4硬件运行,无任何软件模拟,真实落地性极强。研究团队以Llama 3.1-8B模型、C4数据集完成标准预训练,最终实测数据十分亮眼:
✅ 训练单步吞吐提升20%
✅ 收敛Token开销仅增加8%-9%
✅ 端到端训练综合加速9%-10%
这组数据意义重大!在精度从FP8腰斩至FP4的前提下,模型收敛质量几乎持平,还能实现实打实的训练提速,彻底证明了FP4用于大模型训练的可行性。
04 改写行业格局,AI训练迎来低成本时代
这篇重磅论文的落地,并非单纯的技术迭代,而是对整个AI算力行业的重塑,核心价值体现在三点:
1、纠正底层技术误区
终结了两年的行业认知偏差,明确低精度训练不稳优先排查结构性误差,而非盲目叠加随机性,为后续低精度训练研究提供全新方法论。
2、释放海量闲置硬件算力
此前NVIDIA Blackwell、AMD MI350系列的原生FP4算力,仅能用于推理。本次突破让海量FP4算力可全面用于训练,等同于现有AI硬件训练算力直接翻倍。
3、全生态兼容无壁垒
本次采用的MXFP4属于OCP开放标准,获得AMD、NVIDIA、Intel、Meta、微软等七大行业巨头联合支持,跨品牌硬件可移植,无生态锁定风险。
结语
从FP16到FP8,大模型训练成本实现首次断崖式下跌;如今AMD打通FP4训练全链路,正式开启4比特低精度训练新时代
随着FP4技术持续迭代落地,大模型训练成本将再次下探,AI研发门槛进一步降低,行业规模化普及的速度或将全面加快!
你觉得FP4会成为未来大模型训练的主流方案吗?欢迎在评论区留言讨论!
#AI科技 #大模型 #AMD #算力突破 #人工智能技术
热门跟贴