一直以来,英特尔深耕处理器市场——这些处理器被看作是保障计算机出色运行的“大脑”,但不能忽略的是,系统内存(DRAM)在提升整体性能方面也扮演着重要角色。特别是在服务器领域,由于处理器核心数量的增长速度超过了内存带宽的提升,这就意味着每个核心实际可用的内存带宽相应减少了。
像天气建模、计算流体动力学和某些特定的AI场景,它们往往需要运行大量的工作负载,这样一来,处理器核心与内存带宽之间的失衡,就可能会导致计算瓶颈。现在,技术创新为我们带来了新的解决办法。
经过多年与行业伙伴的合作,英特尔工程师打造了一个创新的解决方案,它将突破性能瓶颈,并将引领新的开放行业标准。近期发布的英特尔至强6数据中心处理器率先应用MRDIMM新型内存,以即插即用的方式大幅提升性能。
英特尔数据中心与人工智能(DCAI)事业部负责至强处理器的产品经理Bhanu Jaiswal说,“很大一部分科学计算工作负载都受到内存带宽的限制”,而这正是MRDIMM的强项。
接下来,我们将为大家揭晓DDR5多路复用双列直插式内存模块(以下简称MRDIMM)研发背后的故事。
受团队灵感启发,将并行性引入系统内存
在数据中心,最常用的内存模块(称为RDIMM)就像现代处理器一样,具有板载并行资源,只是两者的使用方式不同。
“大多数DIMM都有性能和容量两个阵列”,DCAI内存开发资深首席工程师George Vergis说道,“这种设计有助于在性能和容量之间实现平衡”。
阵列就像是河岸,模块上的一组内存芯片属于一个阵列,其余的则为另一个。RDIMM虽然可以让独立存储和数据访问发生在多个阵列之间,但却无法同时进行。
这让Vergis回想起灵感闪现的那一瞬间。他说,“当时我们想到,既然并行资源没被使用,那为什么不把它们集中起来呢?”于是,Vergis便提出一个创新方案,即在DRAM模块上放置一个小型接口芯片——多路复用器(Mux),从而让数据可以在同一个时刻跨两个内存阵列进行传输。
多路复用缓冲器整合了每个MRDIMM的电力负载,这让接口能够运行得比RDIMM更快。由于能够同时并行访问两个内存阵列,带宽也翻倍了。
由此诞生了英特尔有史以来最快的系统内存,峰值带宽提高近40%,从每秒6400 MT跃升至每秒8800MT,而过去则需经过多次迭代才能实现。
内存模块标准相同,但速度更快
基于过去在存储领域的技术积累,英特尔持续通过技术创新,让不同的计算组件具备互操作性、实现性能提升。
Vergis是英特尔在联合电子设备工程委员会(JEDEC)董事会中的一位代表成员,该委员会负责制定微电子行业的开放标准,尤其在内存标准制定方面享有盛誉。Vergis在DDR5标准化方面的贡献使他在2018年荣获JEDEC奖项,而现在,他正全力以赴地投入到DDR6的研发工作中。(今年,JEDEC也向英特尔首席执行官帕特·基辛格颁发了荣誉,称赞他是“开放标准的坚定支持者”,并指出“英特尔在标准制定方面的历史领导地位就是最好的证明。”)
Vergis带领团队自2018年开始研发,并于2021年通过原型验证了这一概念。英特尔与存储领域生态伙伴合作制造了首批组件,并于2022年底将组件规格作为新的开放标准捐赠给了JEDEC。
MRDIMM的突出优势在于其易用性,通过采用与常规RDIMM相同的连接器和外形规格,使小型多路复用芯片也可适配之前模块上的空余位,因此无需对主板做任何更改。
MRDIMM还具备与RDIMM相同的纠错及可靠性、可用性和可维护性(RAS)功能。Vergis说,无论数据缓冲区中产生怎样的独立多路复用请求,都可以保持数据的完整性。
这意味着对于数据中心客户,在订购新服务器时选择MRDIMM,或将机架服务器中的RDIMM换成MRDIMM,就可以体验全新性能,并不需要更改任何代码。
至强6+MRDIMM = ??
仅有MRDIMM还不够,业界还需要一款可以发挥MRDIMM性能的CPU。今年上市的英特尔至强6性能核处理器(代号Granite Rapids)就是业界率先支持MRDIMM技术的处理器。
近期的媒体测试对比了两套配置相同的至强6系统,分别使用MRDIMM和RDIMM。测试结果显示,使用MRDIMM的系统在完成速度上比使用RDIMM的系统快33%。
Jaiswal说,“MRDIMM带来的带宽提升,非常适用于小语言模型、传统深度学习和推荐系统这类AI工作负载,它可以在至强平台上轻松运行,并提供显著的性能提升。”
一些领先的存储厂商已经推出MRDIMM,更多厂商将会陆续发布他们的产品。一些研究机构也正在积极采用支持MRDIMM技术的至强6性能核处理器。
Jaiswal说,“生态共赢,正是强大的OEM和内存提供商生态系统,让英特尔有机会获得该技术的先发优势。”
评论