编辑 | 虞尔湖

出品 | 潮起网「于见专栏」

在AI算力军备竞赛中,参数规模俨然成为唯一话语权。尤其近两年某厂高调推出384卡超节点后,几度宣称“撕裂AI天花板”、“领先英伟达一代”,引起舆论场一片欢腾。但喧嚣过后,一个尖锐的问题浮出水面:这种堆砌参数的“算力怪兽”,应该以何种姿态平稳着陆?

打开网易新闻 查看精彩图片

光模块的诅咒:“修的时间”比“跑的时间”多?

毋庸置疑,超节点的核心卖点是大规模高速互联。比如在某厂的产品设计中,为了实现384张卡的全Mesh互联,必须依赖极其密集的光模块组网,造就一台精密且繁杂的算力大机器。

公开资料显示,某384超节点配置了6912个光模块,采用了总长度达316公里的3168根光纤。这个数字也意味着,仅单个超节点内的光模块数量,就相当于一个小型数据中心的总和。而被频繁使用光模块,恰恰是算力集群中最脆弱的环节。

在业内,大规模集群运维有一个“心照不宣”的秘密:光模块故障是TOP级硬件故障。由于机房环境难以做到100%无尘,光模块端面脏污、松动问题几乎无法避免。

根据某厂商官方技术文档数据,其大规模集群包含数万个光模块,年失效率达4‰,而光模块脏污、松动是导致业务劣化或中断的首要原因。

把这一数字放到384超节点上计算:近7000个光模块,意味着每年仅光模块的自然失效就接近30个。这还不包括因灰尘污染导致的性能劣化、闪断等“隐形杀手”。

更致命的是故障定位的复杂度。当一条光路出现问题,涉及的不仅仅是光模块本身,还有两端设备、连接器、配线架。传统运维方式需要网络和计算领域专业人员携带专业检测设备,到机房现场通过重插交叉验证判断故障,耗时通常数小时。

在384这种超大规模组网中,光链路数量超过11万条,传统检测手段根本无从下手。有运维人士直言:“这种规模的光模块集群,修的时间比跑的时间多是常态。今天换一个,明天坏两个,算法工程师等着出结果,运维工程师在机房里满头大汗——这还怎么商用?”

ASIC的孤岛:代码迁移的“天堑”

在超节点算力赛道中,如果说光模块问题还能靠堆人力勉强应对,那么生态封闭带来的问题,正在从根上掐断部分用户的使用意愿。

相较于主流生态,某384超节点基于ASIC架构,推行的是相对封闭的技术体系。对于CUDA开发者来说,这意味着过去几年积累的代码资产,可能面临“推倒重来”。

一位业内人士透露,基于该平台的模型训练效果一直不及预期,导致团队在压力下无奈选择“套壳”、“续训”等权宜之计,甚至小模型实验室至今仍需要依赖英伟达加速卡。坊间甚至传出“NPU只能用来推理,从效率效果上根本不适合做训练”的尖锐评价。

更深层次的原因则在于,ASIC架构与主流的GPGPU路线存在天然隔阂。两者在架构上几乎不兼容,软件迁移更是难上加难。有分析指出,若从ASIC转向GPGPU,原平台推理引擎与API要大规模重构,推理模型、算法代码、系统适配都需重写。

对于已经走上封闭路线的用户来说,更大的噩梦还在后面:一旦厂商调整技术路线,已购买的硬件、配套板卡、开发框架可能被弃用,面临二次投入和算力平台重构成本。

一位用户无奈吐槽:“买了之后才发现,现在只能跑那几个固定的Demo。想跑点自己的模型?先派一个团队过来做半年迁移。”

而从某厂最新动态来看,其底层加速卡从ASIC转向GPGPU已成定局。这一进程也再次加剧了配套超节点产品的迁移问题,现阶段实现大规模商用变得越发艰难。

部署之痛:从“周级上线”到“月级等待”

超节点的价值,在于将高端大算力“拽进现实”,而不是把纸面参数“摆上神坛”。然而考虑到384规格的部署复杂度,此前让人热血沸腾的性能突破远远还未着陆。

据某厂商技术文档披露,在大规模组网情况下,手工配置连线极易接错,而接错问题人工排查困难。另外软件和固件升级也依赖手工配置,升级时间可能超过用户维护窗口期。为此,该厂不得不推出专门的运维软件,试图通过自动化工具缓解部署难题。

显然,这是一种典型的“头痛医头,脚痛医脚”,很难彻底根除所有问题。

以开局部署为例,384超节点涉及12个计算柜和4个总线柜,需要对接的不仅仅是硬件,还有网络配置、存储对接、软件安装、模型适配等一系列环节。即便有自动化工具加持,官方宣称的“周级上线”在实际机房环境中,往往被拉长到半个月甚至一个月。

更别提日常的调试和维护。当故障发生时,运维人员面对的是密密麻麻的光纤和数不清的指示灯。一位经历过大规模集群调试的工程师感叹:“每次进机房前都要做心理建设。调试一次要一周,中间还可能因为各种奇怪的问题卡住。”

这种看起来高大上的昂贵造物,在落地起始环节就被打上了“很难伺候”的标签。面向一日三变的大模型迭代应用节奏,不由让人疑问,它真的符合国产AI用户的现实需求吗?

某行业媒体在报道中直言,384与英伟达2022年的DGX H100 NVL256“Ranger”颇为相似。但由于成本、功耗和可靠性等问题,NV最终放弃了将该平台投入生产。有人更进一步指出:“从AI产业化发展角度来说,这套方案目前对于国内用户也是‘有价无市’,难以落地。”

结语:超节点算力不是用来“秀”的

在某些超节点产品宣传叙事中,往往会被塑造成“突破算力边界”的划时代产物。但一个根本性问题被有意无意忽略:对于绝大多数AI企业,是否愿意为华而不实的算力造景买单?

这种担忧并非空穴来风。近年来,市场上已传出某腾算力中心闲置率较高、场景应用范围狭窄的声音。当一款产品只能服务于极少数头部玩家,大多数企业连“看一眼”的资格都没有,它究竟是产业福音,还是参数竞赛的产物?

中国AI当然需要超节点算力。不过要注意的是,AI算力的终极价值是支撑业务创新、加速模型迭代、降低开发门槛,我们需要的更多是能用、好用、用得起的算力产品,绝非让部署运维“一个头两个大”的昂贵玩具。真正的技术突破,也从来不是参数上的遥遥领先,而是在最广泛的用户群体中,把算力低成本、高效率地转化为生产力。