作为全球领先的存储解决方案供应商,戴尔提供了丰富的存储产品线,包括PowerStore(全闪存,面向关键业务负载)、PowerScale(横向扩展文件存储,专为非结构化数据设计)、PowerFlex(软件定义的基础架构平台,适用混合/灵活负载)等。它们有着不同的特点,适应不同类型用户和应用场景的需求。

这一次我们要体验的是戴尔存储产品线中的一款明星产品:PowerFlex。

打开网易新闻 查看精彩图片

戴尔PowerFlex是一套软件定义的基础架构,优势在于可扩展性、性能和弹性,融合计算与块存储资源,支持多种工作负载与部署模式,适用于高性能、可扩展的关键任务环境,尤其高度适配超融合替换场景。用户可以在PowerFlex软件定义的存储块之上构建标准化的技术架构,并且可以运行各种虚拟化软件,包括VMware vSphere、Hyper-V、KVM等等。开放、灵活的特性避免了供应商锁定的风险——在过去一年当中,业内某头部供应商商业策略大调整可是企业IT设施的一大痛点啊,懂的都懂。

PowerFlex支持裸机到虚拟化、容器化的基础设施,非常适合在私有云环境中使用,让用户享受简化、敏捷、可扩展的技术优势。通过高效率的资源整合,目前在大数据、AI热潮背景下备受推崇的数据湖、数据库整合等也更易于实现,有利于传统IT基础设施向更为现代化的智算中心演进。

PowerFlex有很高的灵活性可以部署为纯存储节点或纯计算节点,也可以将二者合并为超融合HCI节点。当然,在决定某台服务器被部署为什么类型节点前,应当根据任务目标对硬件配置进行取舍,纯存储节点就没有必要配置太多的内存,而纯计算节点就不必配置容量盘。PowerFlex还可以在公有云上部署软件,将云上的附加存储用作软件定义的存储层。构建PowerFlex集群需要至少3个超融合节点。通过添加节点,可以近乎线性地提升容量和性能,以横向扩展基础设施,并始终保持99.9999%可用性。在PowerFlex 4.6中,单个集群的容量上限是16PB。

打开网易新闻 查看精彩图片

PowerFlex支持两种数据块协议:基于TCP的专有协议用于在Storage Data Servers (SDS) 和 Storage Data Clients (SDC) 之间传输;NVMe/TCP由 Storage Data Target (SDT) 服务提供。

实地配置

这一次我们在戴尔的帮助下,在办公室的机柜中部署了一套基本的PowerFlex集群。

打开网易新闻 查看精彩图片

整套集群使用独立的存储节点、计算节点,包括:

4台戴尔PowerFlex R660作为存储节点:

  • CPU:Intel Xeon Gold6426Y(16核) × 2;

  • 内存:DDR5 4800MT/16GB × 16;

  • 系统盘:Dell NVMe PE8010 RI M.2 960GB(BOSS-N1) ×2;

  • 容量盘:Dell CM7 1.6TB NVMe SSD × 5;

  • 业务网络:Broadcom双端口25GbE网卡 × 2;

2台戴尔PowerEdgeR760用作计算节点:

  • CPU:Intel Xeon Platinum 8462Y+(32核) × 2;

  • 内存:DDR5 4800MT/s 64GB × 2;

  • 系统盘:960GB SATA × 2;

  • 业务网络:英特尔E810-C双端口100GbE网卡 × 1;

2台戴尔PowerSwitch S5224F-ON作为核心交换机:

  • 25GbE SFP28 × 24;

  • 100GbE QFSP28 × 4;

打开网易新闻 查看精彩图片

计算节点戴尔PowerEdge R760在我们过往的测试《中曾有较为详细的介绍,我们重点看一下PowerFlex R660。

R660的基础架构是1U通用机型,前窗可以配置8或10个2.5英寸驱动器。这台样机前窗高速背板的5个MCIO x8端口全都连接,理论上可以支持10个NVMe U.2 SSD。

打开网易新闻 查看精彩图片

这一代平台有充足的PCIe扩展能力,如果需要在R660中提供更高的SSD部署密度,还可以选配E3.S支持,配置数量达到14或16个。

每个节点配置了16条16GB内存,实现全通道1DP的配置,保证内存带宽最大化,不会成为性能瓶颈。此时系统总容量为256GB——前面说过,纯存储节点并不需要太高的内存容量。

打开网易新闻 查看精彩图片

样机配备了1+1冗余的1100W钛金电源,即使在使用高主频处理器的情况下,也有充足的容量支持SSD、网卡等的满配。

集群的大动脉是网络。存储节点的两块双端口25GbE网卡分别直连两颗CPU的PCIe通道,每块网卡的两个端口分别与两台核心交换机相连。

打开网易新闻 查看精彩图片

计算节点100GbE网卡的两个端口也是分别与两台核心交换机相连。这里需要强调的是,E810-C的x16 PCIe 4.0接口带宽理论上是充足的,但该网卡的以太网单向带宽只有100Gb/s,不论是连接1个还是2个100GbE端口均如此。因此计算节点的网络带宽上限是100Gb/s。

存储节点中的容量盘CM7在系统中显示容量为1490.42GB,整个集群在PowerFlex Manager中显示的总容量为10.9TB。

打开网易新闻 查看精彩图片

基准测试

我们先用FIO探一探这套配置的性能上限。

单计算节点情况下,顺序读峰值可以达到12GB/s,基本上就是计算节点所用的E810-C网卡的单向带宽(100Gb/s)上限了。顺序写方面,单节点可以达到11.3GB/s,也很接近网络带宽上限。

两个计算节点分别运行FIO,每个节点的顺序读也可以稳定在11GB/s以上,总和约23GB/s,也是近乎于跑满网络。每个节点的顺序写降到约8GB/s,总和15.7GB/s。

打开网易新闻 查看精彩图片

4台存储节点总共提供了20块NVMe SSD和400G网络带宽,承担两个计算节点的并发请求还是蛮轻松的。

在256队列深度的随机读写测试中,两个计算节点的4KB读总和超过110万IOPS,随机读平均时延432微秒。8KB随机读的IOPS也可以达到4KB的80%水平,8KB随机写甚至可以达到4KB写的95%,这个表现对于喜欢用8KB数据块的数据库类应用是好消息。

打开网易新闻 查看精彩图片

随机写的IOPS大概可以达到随机读的60%水平,这种表现与绝大多数SSD本地盘截然不同。相对较高的随机写水平在混合负载下不会“拖后腿”。

7:3混合随机读写方面,两个计算节点的读、写操作的总和将近100万IOPS,与纯随机读的IOPS相差不多。此时混合读的平均时延为480微秒。

打开网易新闻 查看精彩图片

在分布式全闪集群中,NAND介质原本较大的读、写操作时间差距被网络延迟淡化了。从平均时延数据角度看,这个集群中的主机发出指令的时延约6微秒,执行时延数百微秒,高于本地SSD一个数量级。

从尾时延的角度看,这一套PowerFlex集群的表现给人留下了深刻的印象:256队列深度的P99读时延只有1.3毫秒,P99.99读时延也仅为2毫秒——相比很多本地盘的表现也是毫不逊色。这一方面是由于前面提到的网络环境写操作延迟不突出,另一方面也得益于负载被分散在多节点多盘。对于目前我们4个存储节点的集群而言,较大规模的队列深度,如256的压力之下,可以提供很好的QoS预期。

打开网易新闻 查看精彩图片

简而言之,4个存储节点面对一两百个并发操作没有什么压力可言。

数据库

在模拟数据库负载中,我们用VDBench做块接口性能测试,使用8KB块。两个计算节点100%读测试可以达到65.4万IOPS;读写比例7:3的测试结果为53万IOPS。值得一提的是,VDBench的IO指令下发并没有FIO那么均匀,测试成绩上限会相对低一些,而且日志数据看起来很散。

了解这个项目的上限之后,我们分别以20万、30万、40万IOPS为目标做固定压力的测试,可以看到IOPS波动很小。40万IOPS相当于满载水平的75%,用通俗的话说就是出八成的力,就能游刃有余了。

打开网易新闻 查看精彩图片

进一步看平均响应时间,会发现40万IOPS时的平均读响应时间不到0.3毫秒,说明这套集群在可预期的负载下可以提供高质量的服务。

打开网易新闻 查看精彩图片

智能训练

智能应用业务方面,我们在MLPerf Storage中选用ResNet50代表小文件样本的训练,Resnet50样本的平均大小为114,660字节。每个进程模拟4块A100,挂载2TB容量虚拟盘。每个计算节点运行1到2个进程,对应4或8块GPU。

ResNet50是小文件、高随机、高并发的典型,在我们这个PowerFlex集群上的表现则很线性,4、8、16块GPU时的样本吞吐量逐步翻倍到每秒近1.5万个,GPU利用率一直在99.7%以上。

打开网易新闻 查看精彩图片

故障恢复

我们在VDBench中运行持续10分钟、20万IOPS的压力测试,期间断开一个存储节点的电源。

打开网易新闻 查看精彩图片

从log文件中可以看到,整个集群的性能出现了3秒的下跌,随后VDBench便可获得更高的IOPS弥补之前的损失,并在性能抖动7秒后逐步恢复平稳状态。

打开网易新闻 查看精彩图片

在PowerFlex Manager的控制面板也可以看到断电瞬间的抖动。在这个短暂的过程中,延迟数据从不到1毫秒突增至15毫秒左右,并很快恢复平稳。

打开网易新闻 查看精彩图片

结语

戴尔 PowerFlex 以高可扩展性和良好适应性重新定义企业基础架构,支持块存储协议灵活部署,为裸机、私有云、混合云提供统一平台。测试中,PowerFlex 集群部署简便、性能稳定,故障可快速恢复。基于容器化与资源池化设计,企业可将主要工作负载集中于单一数据中心平台,整合资源并按业务需求横向扩展。近期发布的 PowerFlex Ultra 新增可扩展高可用引擎(SAE),实现亚毫秒级延迟与 10 个 9 的数据可用性,以弹性、性能和效率支撑大规模数据处理。

期待 PowerFlex 在后续版本中延续这一技术路径,为企业数据中心提供持续可靠的演进方向。