如果技术也分咖位,那AI一定是这两年的顶流。
作为当今时代最具变革性的技术之一,AI可以通过学习、推理和自我修正等方式实现自主决策和行动,并在医疗保健、金融、交通、教育等领域发挥重要作用。特别是近两年生成式AI的崛起,更进一步引发了企业和消费者对AI的巨大需求。
在这一波汹涌的AI浪潮之下,算力的重要性毋庸置疑,几乎所有领先的AI公司都使用英伟达的先进GPU来训练模型,部分高端型号更是供不应求。但很多人都忽略了的一件事情是,数据存储作为AI的“第三支柱”,同样也在AI的全生命周期内发挥着重要作用,尤其是在生成式AI爆火的大背景下,包括图像、视频、音频在内的非结构化数据会不可避免地呈现出爆炸式增长的态势,根据IDC的调研结果,预计到2028年,每年产生的数据总量会接近400ZB。
在数据量不断增长的趋势下,数据存储技术对于人工智能数据周期中不同阶段基础设施和工作负载的容量、性能、能耗效益以及成本效益都至关重要,为了帮助企业级数据中心规划者厘清AI和数据存储之间的动态关系,西部数据在今年6月份正式发布了人工智能数据周期存储框架,该框架清晰地阐明了大型AI工作负载的六个阶段中每一阶段的存储重点,可以帮助客户规划并扩展高级存储基础设施,最大化AI投资收益。同时,西部数据也对产品路线图进行了积极调整,从而满足客户在AI驱动下不断升级的存储需求,以更大限度地提升性能和容量,并降低能耗和TCO。
西部数据人工智能数据周期
西部数据公司副总裁兼中国区总经理蔡耀祥表示:“人工智能汹涌的发展浪潮正以前所未有的速度推动着各行业的变革。随之而来的呈指数级增长的数据量以及更为复杂的运算工作负载,对用户构建下一代数据中心也提出了全新的挑战。西部数据深刻理解数据存储对于加速推进人工智能革新的重要意义,通过人工智能数据周期框架帮助用户搭建先进的数据存储基础架构,加速部署人工智能功能和应用。”
西部数据公司副总裁兼中国区总经理蔡耀祥
通过人工智能数据周期存储框架,西部数据详细解读了AI管道六个阶段数据从收集、训练到推理的存储细节,具体来看,在人工智能数据周期的原始数据存档,内容存储环节,需要从各种来源安全高效地收集并存储原始数据,以用于训练模型,这一阶段收集的数据质量和多样性至关重要,为后续的所有阶段奠定了基础。由于查找和收集数据需要大容量存储,所以在此阶段,可以经济高效地存储巨量规模化数据,且具备更低TCO的大容量企业级HDD(eHDD)通常是建立深度内容资源库的理想选择。
在数据准备和转换阶段,上一阶段中收集的原始数据会被处理、清洗和转化,以供模型训练使用,在AI场景下,这一阶段需要执行的操作很复杂,对性能的要求也更高。由于数据需要首先被转化为AI模型可以使用的信息,所以需要对所有输入AI模型的内容(文本、图片、视频等)进行矢量化处理,因此在这一阶段,对存储基础设施的要求也会更苛刻,例如高性能、大容量等等。因此,大容量企业级SSD(eSSD)的全闪存存储系统成为了首选,可以增强现有的基于HDD的资源库或用于新的全闪存存储层。
在AI模型训练阶段,模型会在高性能的超级计算机平台上进行反复训练,而训练效率在很大程度上取决于最大化GPU利用率和专门的高性能存储。由于这一阶段的工作负载对计算性能的要求极高,因此最理想的存储方案是高性能、低容量、以计算为目的的企业级SSD,从而确保向GPU集成系统输入数据的环节不会受到存储瓶颈的影响,此外,由于这一阶段涉及检验点、归档等操作,计算密集型存储和基于闪存的数据湖在该阶段也会混合应用。
在交互和提示阶段,AI模型会被整合到现有的互联网和客户端应用程序中,在不取代现有系统的前提下实现AI相关功能,这一阶段的存储重点在客户端设备、移动设备和物联网设备,不仅需要较高的性能需求来应对推理过程,也需要大容量来应对新数据的产生。因此,兼顾性能和容量的客户端存储设备是最为合适的存储方案,例如PC和笔记本电脑需要容量更大、性能更强的客户端SSD(cSSD),手机、物联网系统和汽车会需要容量更大的嵌入式闪存设备。
在AI推理引擎阶段,已经被训练好的模型会被部署到数据生产环境中,对新的数据进行分析并提供实时预测或者生成新内容,为了不影响AI响应的及时性和准确性,往往需要用于缓存的高性能eSSD、用于高速数据湖的大容量eSSD、大容量cSSD以及用于AI驱动边缘设备的嵌入式内存。
而在最后的新内容生成阶段,由AI模型带来的洞察分析会产生新的数据,虽然这一阶段标志着数据循环的结束,但生成的新数据又会被反馈到新的数据周期中,并通过不断提升数据价值来用于未来模型的训练和分析,实现持续的改进和创新,在此阶段,生成的内容会被存储到大容量eHDD中,在数据中心进行备份和归档,同时,大容量cSSD和嵌入式闪存设备也将用于存储边缘设备中额外由AI驱动的数据。
不难看出,在人工智能数据周期的各个阶段,根据工作负载特性的不同,对基础设施、计算和存储的需求也有所不同,针对不同阶段差异化的存储需求来优化存储组合,企业可以灵活应对大规模的AI运算符载,搭建更为先进的存储基础架构,进而提高AI工作流的效率并降低TCO,以进一步优化在AI领域的投资效益。
例如,针对人工智能数据周期第三、四、五阶段的高性能存储需求,数据中心可以选择部署西部数据旗下首款企业级PCIe Gen 5.0解决方案:SanDisk DC SN861 NVMe SSD来为关键的AI工作负载做好准备。
SanDisk DC SN861 NVMe SSD
形态和容量方面,SanDisk DC SN861 NVMe SSD提供了U.2、E1.S和E3.S三种规格,并支持NVMe 2.0和NVMe MI1.2c规范以及OCP 2.0标准,充分确保了可扩展性和灵活性,容量最高则达到了16TB,非常适合各类数据密集型应用。
性能方面,SanDisk DC SN861 NVMe SSD具备市场领先的随机读写表现,特别是随机读取性能与上一代产品提升了约3倍,同时还具备超低的延迟和极快的响应速度,并对计算密集型AI和机器学习应用进行了优化,特别适用于大语言模型的训练、推理和AI服务部署。
能效方面,SanDisk DC SN861极低的功耗能够提供更高的每瓦特IOPS,有助于企业进一步降低TCO。
此外,由于SanDisk DC SN861针对服务质量(QoS)进行了优化,使得其在高负载下也能提供始终如一的QoS,从而帮助降低关键任务操作期间的延迟。
企业级功能方面,SanDisk DC SN861提供了掉电保护、端到端数据路径保护以及TCG安全和加密等功能,可有效确保数据的完整性和安全性。
耐用性方面,SanDisk DC SN861则提供了1和3DWPD和五年的有限质保。
值得一提的是,不久之前西部数据还宣布E1.S规格的SN861 SSD已经获得英伟达认证,能够支持NVIDIA GB200 NVL72机架级系统。
SanDisk DC SN861 NVMe SSD – E1.S
蔡耀祥表示:“西部数据提供包含高性能PCIe Gen 5 SSD如SanDisk DC SN861 NVMe SSD在内的丰富的企业级存储解决方案,具备下一代人工智能工作负载所需要的容量、性能、能耗及成本优势,可助力用户从容应对未来人工智能持续升级下的存储需求,释放数据潜力。”
当下,整个数字社会正在AI等新一轮技术的引领下迎来新的变革机会,数据量的爆发式增长亦已成为定局,毫无疑问的是,作为算力的基础,存储对于大型AI数据集、高效重构复杂数据并推动进一步创新来说至关重要,西部数据基于多年来深厚的技术积累和对市场的深刻洞察,为下一代AI工作负载所需要的极致性能和耐用性提供了量身打造的存储解决方案,而SanDisk DC SN861 NVMe SSD正是其中最佳的范例之一。
评论