打开网易新闻 查看精彩图片

作者 | 董道力
邮箱 | dongdaoli@pingwest.com

DeepSeek 推出了 V3.1 版本,简单过一下亮点:混合推理架构:一个模型同时支持思考模式与非思考模式。更高的思考效率:相比 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短时间内给出答案。更强的 Agent 能力:通过 Post-Training 优化,新模型在工具使用与智能体任务中的表现有较大提升。

但更让人好奇的是,DeepSeek 还在置顶留言里强调:UE8M0 FP8是针对即将发布的下一代国产芯片设计。

打开网易新闻 查看精彩图片

这句话放在当下的语境里,就显得耐人寻味——毕竟不久前,相关部门才约谈英伟达,要求解释 H20 芯片的安全风险。

也正因如此,几个技术性的名词才变得格外值得关注:参数精度到底是什么?为什么芯片会决定它的形式?

这些改动背后,或许预示着国内 AI 行业正在进入一个软硬件协同的新阶段。

打开网易新闻 查看精彩图片

1

看不见的小数点,决定了大模型的命运

在深度学习里,参数就是模型的大脑神经元之间的“权重”,训练时需要不断更新、存储、计算。精度(precision)就是用多少位二进制数来记录这些参数。

在介绍 FP8 之前,先得回到计算机最基本的问题:机器是怎么存数字的?

最简单的方式叫整数(int)。它就像算盘上的珠子,能表示的是一个个精确的格子:1、2、3、4。但整数没法表示 3.14 这样的圆周率,也很难处理科学计算中常见的极大值或极小值。

于是,科学家们发明了浮点数(floating point),也就是 FP8 中的 FP。顾名思义,小数点的位置是“浮动”的,既能写成 3.14159 这样的日常数字,也能写成 6.02×10²³ 这样天文级的指数。浮点数本质上就是把一个数字拆成三部分:符号位、指数、尾数。符号位决定正负,指数决定小数点的位置,尾数决定精度。

浮点数基本可以表示任何数字,代价是,同样的内存位数,用得越多,表示得越精确;用得越少,表示得越粗糙。

打开网易新闻 查看精彩图片

在很长一段时间里,FP32(32 位浮点数)是计算机的黄金标准,它精度高,范围广,几乎是科学计算、图像处理、AI 的通用方式。但当大模型的参数量级膨胀到数千亿甚至万亿,FP32 就显得臃肿了。每一条权重都要用 32 位去存,显存根本不够用,训练时间也被拖长。

于是,行业开始尝试降低精度。先是 FP16(16 位浮点数),后来是 FP8(8 位浮点数)。举个不恰当例子,就像把一张 4K 高清照片压缩成 480p 的小图,细节损失在所难免,但能存更多张,还能传输得更快。

英伟达技术博客里的一张图可以直观的看出来,同样用 H100,FP8 的速度远远高于 FP16。

打开网易新闻 查看精彩图片

训练大模型时,最大的瓶颈不是算法,而是算力和显存。NVIDIA 官方博客指出,FP8 在不显著牺牲模型效果的前提下,能让吞吐量翻倍、显存占用减半,这是训练 GPT 级别大模型时极具吸引力的优势。

换句话说,在大模型这种追求“规模胜过精度”的赛道上,FP8 成了必然选择。

英伟达技术博客:https://developer.nvidia.com/zh-cn/blog/fp8-precision-performance/

1

谁制定规则,谁就掌握算力

那 FP8 就 FP8 ,DeepSeek说的“UE8M0 FP8”是什么?为什么还要适配国产芯片?

首先,FP8 本身并不是一个彻底中立的国际标准。表面上,NVIDIA 曾经和 Intel、Arm 一起推动过 FP8 的规范化,推出了 E4M3 和 E5M2 两种格式,分别侧重精度和数值范围,看起来像是一次开放的行业标准化行动。

但在真正落地时,NVIDIA 在自家的 GPU 上加了很多“优化”:比如 per-tensor scaling、per-block scaling 这样的动态缩放策略,用来解决 FP8 动态范围太窄、容易溢出的问题。又比如在 Tensor Core 上内置了针对 FP8 的指令集优化,使得 FP8 在 H100 上能直接跑满算力。这些优化细节没有写进统一标准里,却被深度绑定在 NVIDIA 的硬件和软件栈中。

打开网易新闻 查看精彩图片

NVIDIA 最新的 Blackwell 架构原生支持一种全新的“微缩浮点格式”(Microscaling formats),包括 MXFP8(8‑bit 浮点)、MXFP6(6‑bit)、MXFP4(4‑bit)。有研究者在高质量数据集上进行了大规模验证:一个 8 亿参数的模型,在使用了 MXFP8‑E4M3 格式和精心设计的数值转换策略后,训练结果几乎达到了传统 BF16(bfloat16)的水平。说白了,在 Blackwell 架构中,使用 MXFP8 格式的预训练效果表现最好。

参考论文:Recipes for Pre-training LLMs with MXFP8 https://arxiv.org/pdf/2506.08027

回到 DeepSeek 在 V3.1 发布官微评论中强调的UE8M0 FP8,并不是 NVIDIA 官方的 FP8 标准,而是一种变体格式。它更接近一种极端的范围优先策略,几乎舍弃了小数部分精度。

这就像你宁愿用一把刻度粗糙的卷尺,也要保证它足够长,能从房间一直量到操场。虽然看不到毫米级的细节,但至少不会量到一半溢出。

为什么要做这样的取舍?因为国产 GPU 在底层电路和指令集设计上,并没有完全兼容 NVIDIA 的 FP8 方案。正如上文提到的,英伟达有自己的“优化”,而国产 GPU 并不具备这种“优化”,如果直接照搬,结果往往是数值不稳定,梯度爆炸,训练根本收不住。

结合前几天 DeepSeek R2 延期是因为国产芯片不行的新闻,DeepSeek 在这个时间发声还是很有必要的。DeepSeek 必须在模型端做出妥协:用UE8M0这种“范围优先”的格式,来适配国产芯片的硬件逻辑,确保国产芯片能跑通的折中方案

这是一种软硬件之间的“互相成就”。模型厂商愿意牺牲一些细节精度,换来国产芯片的稳定运行;而芯片厂商也通过这种合作,逐渐建立起自己的 FP8 生态。

1

国产 GPU 的 FP8 联盟

当然,由此产生的另一个问题是,DeepSeek 在哪家国产芯片上训练啊?

(此处不做为任何投资建议,纯属小道消息,只是为了凑字数)

比如沐曦曦云 C600芯片就在 2025 年正式亮相。官方明确宣称,它原生支持 FP8 精度,并且采用了多精度混合算力架构:既能运行传统的 FP32/FP16 任务,也能用 FP8 高效加速大模型训练。

C600 其实早在 2024 年 10 月就完成流片,目前正处于小批量量产阶段。与此同时,下一代 C700 系列也已经立项,预计在 2026 年 Q2 进入流片测试。

打开网易新闻 查看精彩图片

除了沐曦,燧原科技也在 2025 年推出了最新的L600 芯片。这颗芯片历时两年半开发,最大的亮点是采用了训推一体的架构:既能承担大模型的训练任务,又能直接用于推理部署。更重要的是,L600 原生支持 FP8 低精度。这与 DeepSeek 模型的精度策略正好对齐。

打开网易新闻 查看精彩图片

UE8M0 只是一个冷冰冰的精度参数,放在论文里也许只值半行字。可在今天,它却像是一种信号:国产芯片厂商和大模型公司,开始真正坐到了一张桌子上,去谈怎么一起往前走。大模型不再盲从英伟达的算力逻辑,而是尝试和国产硬件对齐,哪怕过程并不优雅。

打开网易新闻 查看精彩图片

点个爱心,再走 吧