中关村在线

企业存储

AI浪潮驱动数据增长 希捷如何塑造存储未来?

作为当今时代最具变革性的技术之一,AI正在以前所未有的速度改变我们的生活,各行各业都在加大算力基础设施的投资,以支持最新的AI应用开发,并最终转化为自身的商业价值。

虽然算力在AI时代的重要性毋庸置疑,但数据存储作为AI的基础,也在AI的全生命周期内发挥着重要作用,特别是随着生成式AI的爆火,包括图像、视频、音频在内的非结构化数据也会呈现出指数级增长的趋势,对存储的需求自然也会随之上涨。根据IDC的调研,到2028年,全球范围内将产生393.9ZB的数据,其中仅AIGC生成的数据就多达100ZB,海量的数据自然需要以存储作为前提,从而激活数据价值,并最终赋能新质生产力。

在不久前举办的ODCC大会上,希捷中国区产品部总监刘嘉表示,“生成式AI正在加速数据的产生过程,这势必会带动存储的增加,但存储的增加实际上存在一定滞后性,在AI发展的早期阶段,行业的开销主要在算力上,之后由算力驱动的AI应用开始变多,生成的数据量暴增,并最终反映在存力需求上,这不仅是市场趋势,也是希捷在与客户交流中能明显感受到的。“

如刘嘉所言,在数据量不断增长的趋势下,人工智能数据周期中各个阶段工作负载中对存储技术在性能、容量、能耗等方面的要求都有所不同。

例如在原始数据存档环节,对大容量存储的需求会更加明显,这个阶段通常会使用大容量的企业级HDD来存储海量的数据,并且拥有更低的TCO,单盘容量越高,存储密度越大,数据中心也越容易实现规模化扩展,以满足不断增长的容量需求。

刘嘉在接受采访时表示,希捷一直以来都在持续关注企业级市场的存储需求,由于企业中产生的90%数据都存储在企业级硬盘或者云平台上,因此希捷关注的重点也自然落到了优化企业级市场的产品和服务上。

以希捷在今年年初推出的Mozaic3+(魔彩盒3+)平台为例,该平台使用与PMR硬盘基本相同的材料组件,大幅增加容量,使数据中心能够显著降低存储采购和运营成本。目前,基于该平台的硬盘单碟容量已经达到了3TB以上,未来几年内单碟将达到4TB+和5TB+,整体容量也会来到50TB。

纵观机械硬盘的发展史,在单盘容量达到20TB之后,扩容就变得更难,由于机械硬盘的本质都是基于磁记录技术,单纯依赖翻新磁头或者磁碟的方式并非长久之计,从技术角度上看,未来如果想达到更大的容量,就需要比较多的能量辅助和相应的技术创新,这也是Mozaic3+推出的初衷。

“对希捷而言,我们希望在进行一定的技术投入后,能够平滑地实现硬盘容量的增加,并不是单碟2TB到3TB用一种技术,3TB到4TB再用另一种技术,频繁的技术转换有时会打来一些未知情况,今年希捷发布的Mozaic(魔彩盒)平台一方面满足了我们平滑进行容量提升的需求,另一方面也能给客户带来更好的投资回报率。”刘嘉补充道。

事实上,大容量的机械硬盘的确更受市场欢迎,从希捷此前发布的2024年第四季度财报中不难看出,超大容量硬盘的出货量已经达到了希捷整体硬盘出货量的90%以上,平均容量也达到了9.3TB。

除了上文中提到的原始数据存档之外,在人工智能数据周期中的数据准备和转换阶段,数据会被处理、清洗和转换,以供模型训练使用。在AI场景下,这一阶段需要执行的操作很复杂,并且对性能的要求也更高。在此阶段,客户往往会部署采用大容量企业级SSD的全闪存存储系统。

由此带来的直接后果是,闪存存储的价格增长要显著快于机械硬盘,从总体拥有成本的角度来看,在AI的持续刺激之下,机械硬盘的成本优势会在未来1-2年内更加明显,而这似乎也从侧面印证了“全闪存储彻底取代机械硬盘”的预言基本不可能发生。毕竟对大规模数据中心用户看来,技术更加成熟且可靠性更高的机械硬盘,在数据留存时间、数据恢复以及成本方面的优势在短时间内无法替代,而且机械硬盘在对存储性能有要求的AI场景中,也并非一无是处,刘嘉就在采访中简单介绍了机械硬盘在高性能场景中的三种主要方式。

第一种是只用机械硬盘处理顺序读写负载,着重发挥机械硬盘在容量方面的优势,至于随机读写性能的不足,则可以搭配闪存来进行弥补,虽然这种方式会增加一定的软件开发成本,但也会带来硬件成本的减少。

第二种是选择成本较低,但性能表现较好的机械硬盘,也就是单盘容量在12TB左右的机械硬盘,这种方式可以有效平衡性能和成本。

第三种则是选择MACH.2(双磁臂技术)的机械硬盘,该技术包含两个同时传输数据的独立磁臂,利用进出单个硬盘驱动器的数据流的并行性,来满足高性能的需求。通过同时从驱动器的两个区域请求和接收数据,MACH.2可以将每个硬盘驱动器的IOPS性能提高一倍。截至目前,第二代MACH.2支持的硬盘容量已经从14TB升级为18TB,这一产品的全球销量已达到百万级,并已广泛应用在服务器、CDN、大数据等领域,随着AIGC的进一步发展,采用MACH.2的HAMR产品将会拥有更广阔的舞台。

“在AIGC大模型训练的整个过程中,有很多环节都需要存储参与,例如把模型文件存储到GPU集群中,这个模型的文件大小可能会达到TB级以上,在这个过程中,大容量存储是十分有必要的。此外,在训练过程中,可以将一些不经常读取的Checkpoint存放到机械硬盘上,并利用机械硬盘存储多个不同的模型版本,或者用来存放生成式AI模型生成的图片、视频等内容,从成本的角度出发,这几个场景用机械硬盘是有优势的。”刘嘉补充道。

在AI发展如火如荼的当下,存储对于管理大型AI数据集、高效重构复杂数据并推动创新至关重要,多年来积极投身数据存力建设的希捷,也在AI的浪潮下,通过产品和技术的持续研发,以精益求精的态度打造容量与性能平衡、成本与效率兼具的海量存储解决方案。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具