英伟达芯片「精神分裂」：同一任务跑出3种结果

固件更新中

2026-03-24 17:44 ·北京

你让计算器算 2+2，它第一次答 4，第二次答 5，第三次说"差不多吧"。

这不是段子。英伟达 H100 芯片最近被扒出，同一批 AI 任务跑三遍，能给出三个不同答案。研究团队把这事写成了论文，名字起得挺客气，叫"重复性危机"。

翻译成人话：芯片的随机性已经大到影响科研可信度了。做实验的人最懂这意味着什么——你的对照组和对照组对不上了。

英伟达的回应也很产品经理：这是"已知特性"，建议用户"多次采样取平均"。

我帮大家翻译一下：我们知道有问题，但修起来太贵，你们自己多跑几遍凑合用。

这事尴尬的地方在于，H100 是目前 AI 训练的主流芯片。各大实验室花大价钱租来的算力，底层是个薛定谔的黑箱。更讽刺的是，很多论文的"可复现性"声明，现在得加一句"在特定批次芯片上"。

芯片厂商以前卖的是确定性：同样的输入，同样的输出。现在卖的是概率云：输入一样，输出看缘分。

有研究者吐槽，他们排查了三个月的代码 bug，最后发现是芯片在"自由发挥"。这感觉就像你修了三个月车，发现是汽油每次燃烧得不太一致。

英伟达不是没技术实力解决，TensorFloat-32 精度模式、确定性算法开关，这些方案都有。但开了之后性能掉多少，官方文档写得含糊。用户像是在玩扫雷：想要稳定，就得牺牲速度；想要速度，就得接受随机。

这事对普通用户影响不大——你问 ChatGPT 同一个问题，本来也不指望答案一模一样。但对科研场景是暴击：药物模拟、气候预测、金融风控，这些需要可复现结果的领域，芯片成了最大的变量。

有个细节挺有意思。论文作者提到，他们测试了不同批次的 H100，随机性程度还不一样。换句话说，你今年买的芯片和明年买的，可能不是同一个"性格"。

英伟达股价没跌，订单也没少。毕竟替代品更贵或者更难用。但"确定性"这个曾经的基础设施，现在成了需要额外付费的增值服务。

最后说个用户反馈。某实验室的工程师在论坛留言："我们现在跑关键实验，会偷偷在论文里标注芯片序列号，万一有人复现不了，好甩锅。"

科研诚信的新维度：不是你有没有造假，是你用的是哪一批 H100。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴