打开网易新闻 查看精彩图片

关于高性能存储的故事本该不会这么复杂,如果不是2016年AI围棋上大放异彩,那么AI应该是一场玩家数量非常有限的牌局,可能只有英特尔、IBM、DataDirect、Networks、WEKA等几大头部玩家轮流坐庄。

在通常情况下,会比较难在“存储”这方面的事情上取得大量或者实力非凡的客户完全信任,这种事情都比较重要,相对其他的赛道,存储领域对于一些“后起之秀”更加不友好。AI就犹如一条拥有巨大身形的“鲶鱼”在搅浑高性能存储的水。在AI兴起前,那部分高性能存储的目标客户一直以超算中心为主。

时间一到2016年,这个市场慢慢的就演变成云计算、AI公司、超算中心等客户构成的复合型区域。自2022年AI迅速的发展,生成式的AI被广泛流传并使用后,情况变得更加更加复杂。

MLCommons社区和焱融科技在近期为什么吸引了那么多的关注?MLCommons围绕着核心的“MLPerf Training”基准测试套件,发起了一个面向AI存储场景的性能测试,名为“MLPerf® Storage v1.0”,吸引到了不少在国际上都有头有面的厂商参加。而焱融科技是国产厂商中唯一一个参加了全部测试的,并且获得非常不错的成绩,足够与“领头羊”DDN(DataDirect Network)掰一场手腕。

我们可以大致上看一看这传闻中的测试内容,根据存储服务场景的不同,MLCommos在两个不同的测试版本上,分别选用了四款模型:3D U-Net(图像分割、医学类)、ResNet-50(图像分类,仅 v1.0 版本)、 CosmoFlow (宇宙学参数预测,仅 v1.0 版本)和 BERT-large(语言处理,仅 v0.5 版本),用以测试不同场景下的存储性能。

以1.0 版本来说,3D U-Net、ResNet-50、CosmoFlow 不但覆盖了常见的 AI 存储场景,也对存储设备的性能提出了不同要求。这三个模型的单个样本大小,分别是 150MB、150K、2MB,基本覆盖了不同标准下的“大文件”、“小文件”,考验的是厂商在不同场景下的性能调校,以及对元数据的处理策略。

再更进一步,MLCommons 要求在 3D U-Net、ResNet-50 的测试中,AU(加速器利用率)必须大于 90%;CosmoFlow 测试的 AU 必须大于 70%。若 AU 一旦低于此值,说明存储性能不足以支撑 GPU 高效运行,即被认定为低效存储,花费太多时间在网络等开销上。

在整个测试过程中,这款测试程序会不断增加 ACC(虚拟加速器,也就是模拟 GPU)的数量,直到 AU 低于 90% 或 70%,。最终输出三项数据用作最终比对,分别是:被测机器支持的 ACC(虚拟加速器)总数、测试数据集大小、吞吐速率。所有测试数据都会被公示,参评的厂商互相审校,交叉提问,只有关于测试成绩的提问全部被“Close”掉,才算做最终测试完成,保证了测试的公正合理。

当然,MLPerf® Storage v1.0 也会存在一些问题,它的核心对测试场景的覆盖不够完整。比如缺少对大参数量级的模型的测试,从3D U-Net到BERT-large,参数量级都很小;此外,测试只模拟模型对训练数据的访问,没有测试重新加载模型,或者写CheckPoint时,表现出来的存储峰值性能。

我们只能结合存储市场的实际选型情况做自主推测:三项测试数据中,“ACC总数”这项数据更为关键。至于数据集大小,其实可以忽略——测试数据集的大小,会被设定为测试机器内存的五倍,用以防止参与测试的厂商提前缓存训练数据。

综合来看,MLCommons真正想展示给公众的数据是两个维度的数据:

·某厂商的一套存储系统,能支撑的虚拟 GPU 是多少颗,吞吐速度如何;

·该存储系统里的单个计算节点,能支撑的虚拟 GPU 是多少颗,吞吐速度如何;

但出于某些原因,社区没有将测试结果,细化到这个层面,也导致各家公关口径的成绩大相径庭。

好比如DDN选择计算单闪存可以支撑的虚拟 GPU 数量。在这种算法操作下,DDN排名第一,排名第二的是国产厂商焱融。

闪存数量通常不是一套存储系统的性能瓶颈,而在于整体的网络开销。并且各家产品架构不同,闪存数量,并不是存储设备在性能方面的通用单位。通过计算单闪存平均支持的ACC 数量来做排名,无疑有失偏颇。

相比较之下,焱融以计算节点为单位衡量存储性能,泛用性更强。分布式训练集群场景,焱融存储在所有三个模型的测试中,能够支撑的每个计算节点平均ACC数量和存储带宽性能排名第一,排名第二的则是来自漂亮国的独角兽WEKA。

抛开计算方法层面的分歧,排名靠前的厂商大致有哪些,其实已经明确了。当下,虽然不能说,像焱融科技这般的国产存储厂商,已经完成了对老牌国外存储厂商的追赶和反超,但在部分垂直场景的存储技术上,“国货”和“洋货”确实已经可以同台竞技,甚至战而胜之。

这种来自国际权威组织的公开测试,可以说是一次宝贵的宣传机会。毕竟在硬科技领域,国内企业往往长于技术,短于生态和营销,几乎已经形成某种刻板印象。好在,AI技术的爆发,将市场拉回了某种混沌的状态,客户的需求几乎每年或者说每个阶段都在变,这是创业公司更为适应的生存环境,相较于传统大厂,他们更灵活,也更有侵略性。

早期 AI 客户往往扎根于计算机视觉、自然语言理解等领域,对存储的要求与性能强相关,且主要考察“读”能力,对“写”能力要求不高。而到了大语言模型兴起后,对“写”能力的要求大幅提升。同时,为了保证模型训练、微调等环节的业务连续性,大模型要经常写 CheckPoint,这进一步增加了存储设备的“写”压力。等到多模态能力在生成式 AI 中得到普及,图片和视频切片,形成了海量的小文件。对存储厂商而言,技术难度进一步上升。

单从市场层面看,“国货”在存储领域对“洋货”形成替代,实际上也是必然的。首先存储直接影响业务的连续性和稳定性,一旦发生故障,相关技术团队必须立刻到位修复。这对于外企而言,显然不是一个简单的事情。

再者,国内环境对客户的定制要求,有一定的包容度,较为配合客户进行一些架构上的探索,这的确更符合国内甲方企业的实际诉求。最大的优势,还是在产业链层面。据业内人士透露,在闪存选QLC,网络解决方案选 RoCE 的情况下,国内有不少上游厂商可供存储厂商选择,对比国外企业,大概会有 20% 的成本节省,从而表现的在终端售价上更有竞争力。

这既给国内企业留出了充足的发展空间,同时也意味着,未来的增长故事不会发生在国内,而是发生在海外。有研究机构预测,到 2031 年,北美地区的软件定义存储市场预计增长到 380 亿美元以上,亚太地区预计增长至 275 亿美元以上,中国地区预计占到其中 33.7% 的份额。

大模型超长的训练周期以及其特殊的业务流程,要求存储厂商的产品,不仅性能够强,在产品设计和服务支持方面也要跟得上。这是为什么焱融投入人力开发了 Dataload 智能数据加载功能,多云、混合云架构是过去几年间,国内最主要的云构建策略,而以 Dataload 为核心的解决方案,可以激活历史数据的价值,打通对象存储与文件存储,实现多云间的数据流转,消除性能瓶颈。

曾经的“少壮派”们,如今面临着向上从巨头手中抢市场,向下严守基本盘的空前竞争压力。能否走出舒适区,将成为后续发展的关键一步。