前言:真全闪分布式存储可以通过 RoCE/RDMA 流控技术,最大限度压榨 RoCE 网络极限性能,让全闪硬件性能利用率接近 100%,让客户真实享受到硬件变革带来的性能红利,并且保护全闪硬件投资。本文所指的 RoCE/RDMA 流控技术,为基于 RoCE(RDMA over Converged Ethernet)网络环境下的 RDMA 流控技术。

在当今数字化时代,数据呈爆炸式增长,企业对于高性能、高可靠的数据存储解决方案需求日益迫切。全闪分布式存储以其高速读写、低时延等优势,广泛应用于对性能要求苛刻的场景,如核心业务、 AI、HPC 等领域。然而,要真正释放全闪存储的全部能力,要支持极高压力,要小块随机 IO 都能打满 25Gb/100Gb RoCE网络,则 RDMA 网络流控技术必不可少。

全闪分布式存储面临的挑战与RDMA流控的关键作用

全闪存储的出现,旨在满足现代企业对数据快速处理和实时响应的需求。但在实际应用中,随着数据量的不断增长和业务复杂性的提高,存储网络往往成为限制其性能发挥的瓶颈。在高压力环境下,传统存储架构容易出现乱序和重传问题,导致时延增高,存储节点端口流量不均衡,从而降低全闪存储的整体性能。

RDMA (远程直接内存访问)技术的引入,为解决这些问题提供了新的途径。在 RoCE 网络环境下,通过允许计算机直接在远程内存中读写数据,RDMA 极大地减少了数据传输的延迟,提高了系统的整体性能。但要充分发挥 RDMA 的优势,必须配合精准的流控机制。XSKY 星飞全闪存储采用的RoCE/RDMA流控技术,特别是在 ECN(显式拥塞通知)和 PFC(优先级流量控制)方面的优化配置,成为解锁全闪存储潜能的关键所在,可以让小块随机 IO 都能打满 25Gb/100Gb 网络,提供单卷 310 万 IOPS(且时延仅 0.3ms)的极限性能。

1、ECN:智能拥塞管理的核心

ECN 是一种在 IP 网络中实现拥塞通知的机制,其工作原理基于对网络拥塞状态的实时监测与反馈。在 RoCE 网络环境下,当网络中的交换机检测到拥塞发生时,它会对经过的数据包进行检查,并根据预设规则在数据包中设置特定的 ECN 标记。之后,接收方在收到带有 ECN 标记的数据包后,会向发送端发送反馈报文,以此通知发送端网络中已经出现了拥塞情况。这个过程中,数据包上的 ECN 标记就像是一个 “信号灯”,而接收方发送的反馈报文则是传递拥塞信息的关键信号,从而让发送端知晓网络拥塞状态。(注:部分交换机也支持直接给发送方发送反馈报文,但总体而言,通过接收方反馈是较为常见的方式。)

星飞全闪分布式存储启用了交换机和网卡上的 ECN 功能。其配置过程涉及到多个关键参数的设置,例如低水位线和高水位线的设定。以低水位线 100KB 和高水位线 800KB 为例,这两个参数界定了网络拥塞的不同程度范围。当交换机缓冲区中的数据量达到低水位线时,系统开始关注网络拥塞情况;而一旦超过高水位线,则表明拥塞较为严重,此时所有经过的数据包都会被进行 ECN 标记,以便促使网络快速收敛。同时,9% 的标记比例是针对处于低水位线与高水位线之间的数据包而言,该比例确定了在此范围内对数据包进行 ECN 标记的概率,从而更精准地控制拥塞通知的触发程度,实现对网络拥塞状态的有效管理与反馈。

当网络拥塞达到一定程度时,发送方收到带有 ECN 标记的数据包后,会根据预先设定的算法降低发送速率。这种动态调整发送速率的方式能够有效避免数据包在拥塞的网络中大量堆积,从而保证网络的稳定性和数据传输的可靠性。通过这种智能拥塞管理机制,星飞全闪存储在高负载情况下仍能保持高效的数据传输,避免因拥塞导致的性能下降。

2、PFC:优先级流量控制保障关键业务

在全闪分布式存储环境中,数据的高效稳定传输至关重要。其中,PFC(优先级流量控制)作为保障存储网络性能的关键机制,在 RoCE 网络环境下有着独特的工作原理和重要意义。

存储流量涵盖多种类型,包括存储数据的读写请求、元数据操作等,这些流量因其重要性和实时性要求各异,被划分成不同优先级,以确保关键业务数据能够优先处理。而 PFC 的核心作用在于对不同优先级流量进行精细管理,其工作原理基于为不同优先级的流量在交换机端口上分配独立的缓冲区。

在基于 RoCE 网络的全闪存储系统中,存储中的 TCP 和 RDMA 流量会分别进入不同的优先级队列,如队列 3 通常用于存储流量(包括 RDMA 流量),而队列 6 用于 RDMA 的拥塞控制报文等。当某个优先级队列对应的缓冲区接近填满时,PFC 机制开始发挥作用。它主要是一种兜底机制,在 ECN(显式拥塞通知)的调控不能完全保证不丢包的情况下,PFC 通过暂停或恢复数据发送来避免缓冲区溢出,从而确保高优先级的流量能够持续传输,而不会因为低优先级流量的拥塞而受到影响。例如,当存储数据的读写请求(高优先级)所在队列缓冲区将满,而其他低优先级流量占用较多资源时,PFC 可暂停低优先级流量的数据发送,优先保障读写请求的处理,保障关键业务的连续性。

然而,需要注意的是,PFC 虽然能够有效防止数据包丢失,但也存在一些问题,应尽量避免不必要的触发。过度使用 PFC 可能会导致网络中出现死锁等异常情况,影响系统整体性能。因此,在实际应用中,需要通过合理设置参数,如 deadlock - detect time(死锁检测时间)和 deadlock - recovery time(死锁恢复时间)等,来优化 PFC 的工作机制,及时察觉可能出现的死锁情况,并在规定时间内采取措施恢复正常的数据传输,确保在保障存储网络性能的同时,最大程度减少潜在风险。

在多业务并发的场景中,PFC 能够确保如存储数据读写请求等关键业务的流量优先得到处理,有效防止因网络拥塞导致关键业务中断,从而为企业业务的稳定运行提供坚实保障。

3、ECN 与 PFC 协同工作实现高效流控

ECN 和 PFC 在星飞全闪分布式存储中协同工作,在 RoCE 网络环境下形成了一个强大的流控体系。当网络拥塞发生时,ECN 首先通知发送方降低速率,同时 PFC 根据流量优先级确保关键业务的持续传输。例如,在存储系统进行大规模数据读写操作时,如果网络出现拥塞,ECN 会协调发送方调整发送速率,而 PFC 则保证存储数据的读写请求能够优先处理,避免因拥塞导致关键业务中断。

这种协同工作机制不仅提高了存储系统的性能,还增强了系统的可靠性和稳定性。在实际测试中,配置了 ECN 和 PFC 的星飞全闪存储在高压力环境下,能够有效避免乱序和重传问题,时延显著降低,IOPS 性能得到充分发挥。

RDMA 流控在实际应用中的表现

1、高压力下的性能保障

若不设置 RDMA 流控,在高压力环境下,存储系统将面临严重的性能问题。数据传输会出现极高的乱序和重传现象,这不仅导致时延急剧增高,还会使全闪存储的性能大打折扣。同时,存储节点的端口流量会经常全局性暂停,造成流量不均衡,进一步降低存储系统的整体性能。

而星飞全闪存储在配置 RDMA 流控后,在 RoCE 网络环境下能够有效避免这些问题。在某客户实测环境中,存储节点的 Storage Public 网络配置了 2x25Gb 无损以太网,通过精准的 RDMA 流控设置,既能保证最大 IOPS(每秒输入 / 输出操作次数),又能将时延控制在极低水平。单存储节点即可提供高达 125 万 IOPS(4KB 随机读,时延小于 0.3ms),这相当于 5GiB/s 的带宽,充分发挥了 RDMA 网络带宽的 80%,实现了小块随机读写性能的极致优化。

2、可靠性指标提升

对于存储系统而言,可靠性与性能同等重要。在星飞存储的 IO Server 进程服务出现故障时,系统需要快速进行故障切换以确保业务连续性。在有 RDMA 流控的情况下,故障切换规格可控制在 2 秒内,有效降低了业务中断风险。

相比之下,若未设置 RDMA 流控,乱序和重传问题将降低存储系统的处理速度,进而影响故障切换速度,故障切换时长可能拉长至 10 秒,这对于对实时性要求较高的业务来说是难以接受的。RDMA 流控技术为存储系统的可靠性提供了坚实保障,确保企业关键业务在面临故障时能够快速恢复,最大程度减少损失。

3、数据恢复速度加快

数据安全是存储系统的生命线,当硬盘出现故障后,存储集群需要迅速进行数据恢复以保证数据冗余度。星飞全闪存储在 RDMA 流控的支持下,数据恢复速度得到显著提升。由于数据恢复速度与 RDMA 网络带宽利用率密切相关,在使用 RDMA 流控时,网络带宽利用率可高达 90%,从而加快了数据恢复进程。

相反,若缺乏 RDMA 流控,大量乱序和重传将导致网络带宽利用率仅为 70%,数据恢复速度将明显减慢,增加了数据丢失风险,延长了系统恢复时间,给企业带来潜在的损失风险。

总结

RoCE 网络环境下的RDMA 流控技术带来了多维度的价值。在性能方面,通过精准的流控策略,实现了网络带宽的高效利用,极大提升了全闪存储的 IOPS 性能,降低时延,满足了企业对数据高速读写的需求。可靠性上,有效缩短故障切换时间,增强系统应对突发状况的能力,为业务连续性保驾护航。数据恢复层面,加速了数据恢复进程,减少因硬盘故障导致的数据丢失风险,确保数据资产的安全性。

这种技术创新使得企业在数字化转型进程中,无论是应对海量数据处理的 AI 场景,还是高精度计算的 HPC 任务,以及对数据安全和业务稳定性要求极高的金融、医疗等行业,都能获得强有力的支持,提升整体竞争力,实现可持续发展。

未来,XSKY 将继续秉承创新的理念,持之以恒地推出更具创新性和竞争力的解决方案,持续助力客户在数据存储领域取得更大成功,共同书写数字化时代的辉煌篇章。若您对相关技术感兴趣或寻求存储优化方案,欢迎随时访问我们的官网或与专业团队取得联系。

打开网易新闻 查看精彩图片