近日,由天翼云弹性存储创新实验室撰写的《RESD: High-Performance RDMA-enabled Control Plane for NVMe Shared-Disk Cluster》论文被The 43rd International Performance Computing and Communications Conference (IPCCC 2024) 长文收录。
IPCCC是高性能系统领域较高水平的国际学术会议,迄今为止已经成功举办42届,在国内外学术界享有较高的声誉和广泛的影响力,也是中国计算机学会CCF推荐的国际会议之一。近两年的论文接收率分别为26%(2023年)、23.9%(2022年)。此次弹性存储创新实验室团队所著论文被收录,代表着天翼云技术创新能力再获业界认可。
该论文作为天翼云新一代XSSD产品的预研成果,主要探索了共享盘场景下高性能控制平面的实现方案。共享盘是云硬盘产品的一种高级特性,通过将一块云硬盘挂载到多个计算节点以提高客户系统访问的可用性和性能,并基于分布式QoS能力和I/O围栏协议来保证产品的SLO(服务等级目标)和数据一致性。
然而,基于现有传统TCP网络的共享盘控制平面实现方案不再能满足XSSD产品百万级IOPS和微秒级延时需求,尽管XSSD产品采用的RDMA协议通过协议栈卸载到网卡已降低了通信延迟,但基于传统RPC通信模式的RDMA协议栈仍会给XSSD产品带来不可小觑的性能开销。
作为云服务国家队,天翼云坚持核心技术自主攻关,针对现有方案的不足,该论文创新性提出了基于One-Sided RDMA技术的NVMe共享盘集群控制平面(a novel RDMA-enabled control plane for NVMe Shared-Disk Cluster,简称RESD)。
RESD整体架构如图1所示。首先,RESD提出了一种基于分布式令牌桶的QoS架构。通过将令牌桶存储到RESD-Bucket数据结构中,并借助One-Sided RDMA操作实现将所有令牌操作卸载到RDMA网卡(操作如图2所示)。这种方法有效地减少了共享盘的I/O延迟,减轻了服务器负载,并增强了整体系统的可扩展性。
图1 RESD系统架构
图2 RESD QoS操作流程
其次,RESD还针对XSSD产品使用的NVMe协议开发了对分布式NVMe PR协议的支持,为共享盘集群提供I/O围栏能力,并通过应用One-Sided RDMA技术,显著减少了延迟。
此外,该论文中还设计了动态QoS令牌分发算法。该算法通过监控全局令牌消耗率,以调节集群内客户端的令牌获取速度,并从闲置客户端回收未使用的令牌,有效减少令牌浪费,提高共享盘集群的吞吐量。
该论文的实验表明,RESD系统在操作延迟、IOPS、QoS均衡性等多个方面均表现优异,且在不同分布的测试数据集上都具有稳定性能。
科技创新是发展新质生产力的核心要素。面向未来,天翼云将秉持央企使命责任,发挥数字中国建设主力军作用,持续推进云存储等云计算技术攻关,筑牢国云智算底座,以科技创新引领产业发展。
评论