中国存储厂商突出重围|中国|存储厂商|闪存

关于高性能存储的故事本该不会这么复杂，如果不是2016年AI围棋上大放异彩，那么AI应该是一场玩家数量非常有限的牌局，可能只有英特尔、IBM、DataDirect、Networks、WEKA等几大头部玩家轮流坐庄。

在通常情况下，会比较难在“存储”这方面的事情上取得大量或者实力非凡的客户完全信任，这种事情都比较重要，相对其他的赛道，存储领域对于一些“后起之秀”更加不友好。AI就犹如一条拥有巨大身形的“鲶鱼”在搅浑高性能存储的水。在AI兴起前，那部分高性能存储的目标客户一直以超算中心为主。

时间一到2016年，这个市场慢慢的就演变成云计算、AI公司、超算中心等客户构成的复合型区域。自2022年AI迅速的发展，生成式的AI被广泛流传并使用后，情况变得更加更加复杂。

MLCommons社区和焱融科技在近期为什么吸引了那么多的关注？MLCommons围绕着核心的“MLPerf Training”基准测试套件，发起了一个面向AI存储场景的性能测试，名为“MLPerf® Storage v1.0”，吸引到了不少在国际上都有头有面的厂商参加。而焱融科技是国产厂商中唯一一个参加了全部测试的，并且获得非常不错的成绩，足够与“领头羊”DDN（DataDirect Network）掰一场手腕。

我们可以大致上看一看这传闻中的测试内容，根据存储服务场景的不同，MLCommos在两个不同的测试版本上，分别选用了四款模型：3D U-Net（图像分割、医学类）、ResNet-50（图像分类，仅 v1.0 版本）、 CosmoFlow （宇宙学参数预测，仅 v1.0 版本）和 BERT-large（语言处理，仅 v0.5 版本），用以测试不同场景下的存储性能。

以1.0 版本来说，3D U-Net、ResNet-50、CosmoFlow 不但覆盖了常见的 AI 存储场景，也对存储设备的性能提出了不同要求。这三个模型的单个样本大小，分别是 150MB、150K、2MB，基本覆盖了不同标准下的“大文件”、“小文件”，考验的是厂商在不同场景下的性能调校，以及对元数据的处理策略。

再更进一步，MLCommons 要求在 3D U-Net、ResNet-50 的测试中，AU（加速器利用率）必须大于 90%；CosmoFlow 测试的 AU 必须大于 70%。若 AU 一旦低于此值，说明存储性能不足以支撑 GPU 高效运行，即被认定为低效存储，花费太多时间在网络等开销上。

在整个测试过程中，这款测试程序会不断增加 ACC（虚拟加速器，也就是模拟 GPU）的数量，直到 AU 低于 90% 或 70%，。最终输出三项数据用作最终比对，分别是：被测机器支持的 ACC（虚拟加速器）总数、测试数据集大小、吞吐速率。所有测试数据都会被公示，参评的厂商互相审校，交叉提问，只有关于测试成绩的提问全部被“Close”掉，才算做最终测试完成，保证了测试的公正合理。

当然，MLPerf® Storage v1.0 也会存在一些问题，它的核心对测试场景的覆盖不够完整。比如缺少对大参数量级的模型的测试，从3D U-Net到BERT-large，参数量级都很小；此外，测试只模拟模型对训练数据的访问，没有测试重新加载模型，或者写CheckPoint时，表现出来的存储峰值性能。

我们只能结合存储市场的实际选型情况做自主推测：三项测试数据中，“ACC总数”这项数据更为关键。至于数据集大小，其实可以忽略——测试数据集的大小，会被设定为测试机器内存的五倍，用以防止参与测试的厂商提前缓存训练数据。

综合来看，MLCommons真正想展示给公众的数据是两个维度的数据：

·某厂商的一套存储系统，能支撑的虚拟 GPU 是多少颗，吞吐速度如何；

·该存储系统里的单个计算节点，能支撑的虚拟 GPU 是多少颗，吞吐速度如何；

但出于某些原因，社区没有将测试结果，细化到这个层面，也导致各家公关口径的成绩大相径庭。

好比如DDN选择计算单闪存可以支撑的虚拟 GPU 数量。在这种算法操作下，DDN排名第一，排名第二的是国产厂商焱融。

但闪存数量通常不是一套存储系统的性能瓶颈，而在于整体的网络开销。并且各家产品架构不同，闪存数量，并不是存储设备在性能方面的通用单位。通过计算单闪存平均支持的ACC 数量来做排名，无疑有失偏颇。

相比较之下，焱融以计算节点为单位衡量存储性能，泛用性更强。分布式训练集群场景，焱融存储在所有三个模型的测试中，能够支撑的每个计算节点平均ACC数量和存储带宽性能排名第一，排名第二的则是来自漂亮国的独角兽WEKA。

抛开计算方法层面的分歧，排名靠前的厂商大致有哪些，其实已经明确了。当下，虽然不能说，像焱融科技这般的国产存储厂商，已经完成了对老牌国外存储厂商的追赶和反超，但在部分垂直场景的存储技术上，“国货”和“洋货”确实已经可以同台竞技，甚至战而胜之。

这种来自国际权威组织的公开测试，可以说是一次宝贵的宣传机会。毕竟在硬科技领域，国内企业往往长于技术，短于生态和营销，几乎已经形成某种刻板印象。好在，AI技术的爆发，将市场拉回了某种混沌的状态，客户的需求几乎每年或者说每个阶段都在变，这是创业公司更为适应的生存环境，相较于传统大厂，他们更灵活，也更有侵略性。

早期 AI 客户往往扎根于计算机视觉、自然语言理解等领域，对存储的要求与性能强相关，且主要考察“读”能力，对“写”能力要求不高。而到了大语言模型兴起后，对“写”能力的要求大幅提升。同时，为了保证模型训练、微调等环节的业务连续性，大模型要经常写 CheckPoint，这进一步增加了存储设备的“写”压力。等到多模态能力在生成式 AI 中得到普及，图片和视频切片，形成了海量的小文件。对存储厂商而言，技术难度进一步上升。

单从市场层面看，“国货”在存储领域对“洋货”形成替代，实际上也是必然的。首先存储直接影响业务的连续性和稳定性，一旦发生故障，相关技术团队必须立刻到位修复。这对于外企而言，显然不是一个简单的事情。

再者，国内环境对客户的定制要求，有一定的包容度，较为配合客户进行一些架构上的探索，这的确更符合国内甲方企业的实际诉求。最大的优势，还是在产业链层面。据业内人士透露，在闪存选QLC，网络解决方案选 RoCE 的情况下，国内有不少上游厂商可供存储厂商选择，对比国外企业，大概会有 20% 的成本节省，从而表现的在终端售价上更有竞争力。

这既给国内企业留出了充足的发展空间，同时也意味着，未来的增长故事不会发生在国内，而是发生在海外。有研究机构预测，到 2031 年，北美地区的软件定义存储市场预计增长到 380 亿美元以上，亚太地区预计增长至 275 亿美元以上，中国地区预计占到其中 33.7% 的份额。

大模型超长的训练周期以及其特殊的业务流程，要求存储厂商的产品，不仅性能够强，在产品设计和服务支持方面也要跟得上。这是为什么焱融投入人力开发了 Dataload 智能数据加载功能，多云、混合云架构是过去几年间，国内最主要的云构建策略，而以 Dataload 为核心的解决方案，可以激活历史数据的价值，打通对象存储与文件存储，实现多云间的数据流转，消除性能瓶颈。

曾经的“少壮派”们，如今面临着向上从巨头手中抢市场，向下严守基本盘的空前竞争压力。能否走出舒适区，将成为后续发展的关键一步。