你让计算器算 2+2,它第一次答 4,第二次答 5,第三次说"差不多吧"。

这不是段子。英伟达 H100 芯片最近被扒出,同一批 AI 任务跑三遍,能给出三个不同答案。研究团队把这事写成了论文,名字起得挺客气,叫"重复性危机"。

翻译成人话:芯片的随机性已经大到影响科研可信度了。做实验的人最懂这意味着什么——你的对照组和对照组对不上了。

英伟达的回应也很产品经理:这是"已知特性",建议用户"多次采样取平均"。

我帮大家翻译一下:我们知道有问题,但修起来太贵,你们自己多跑几遍凑合用。

这事尴尬的地方在于,H100 是目前 AI 训练的主流芯片。各大实验室花大价钱租来的算力,底层是个薛定谔的黑箱。更讽刺的是,很多论文的"可复现性"声明,现在得加一句"在特定批次芯片上"。

芯片厂商以前卖的是确定性:同样的输入,同样的输出。现在卖的是概率云:输入一样,输出看缘分。

有研究者吐槽,他们排查了三个月的代码 bug,最后发现是芯片在"自由发挥"。这感觉就像你修了三个月车,发现是汽油每次燃烧得不太一致。

英伟达不是没技术实力解决,TensorFloat-32 精度模式、确定性算法开关,这些方案都有。但开了之后性能掉多少,官方文档写得含糊。用户像是在玩扫雷:想要稳定,就得牺牲速度;想要速度,就得接受随机。

这事对普通用户影响不大——你问 ChatGPT 同一个问题,本来也不指望答案一模一样。但对科研场景是暴击:药物模拟、气候预测、金融风控,这些需要可复现结果的领域,芯片成了最大的变量。

有个细节挺有意思。论文作者提到,他们测试了不同批次的 H100,随机性程度还不一样。换句话说,你今年买的芯片和明年买的,可能不是同一个"性格"。

英伟达股价没跌,订单也没少。毕竟替代品更贵或者更难用。但"确定性"这个曾经的基础设施,现在成了需要额外付费的增值服务。

最后说个用户反馈。某实验室的工程师在论坛留言:"我们现在跑关键实验,会偷偷在论文里标注芯片序列号,万一有人复现不了,好甩锅。"

科研诚信的新维度:不是你有没有造假,是你用的是哪一批 H100。