4月18日,第十届联想创新科技大会Tech World在上海举行。联想集团副总裁、中国基础设施业务群总经理陈振宽表示,联想基于最全面的AI基础设施产品组合以及最丰富的AI行业解决方案,加速了全球客户的智能化转型,同时在这场非赢不可的比赛和角逐中将竭尽所能,为客户提供纵横智能化时代的万全之策。
陈振宽称,联想是扎根于中国的高科技企业,引领了一个又一个的中国IT技术发展浪潮。
在通用计算领域,联想的X86服务器可靠性连续9年第一,实现463项性能世界记录;在科学计算领域,联想连续9年实现中国HPC TOP 100 NO.1,助力中国在科学计算、仿真、气象等前沿领域的创新突破;在人工智能1.0时代,联想基于中国特色需求设计了完整AI基础设施组合,并实现165个行业验证落地的AI方案。
现如今,大模型的AI 2.0时代已经迈着大步走来。随着AI模型参数的指数级增加、迈入千亿、万亿级大关,大模型具备了超强的泛化、生成能力,促使人工智能进入更广的应用场景和更深的业务流程当中,发挥更大的价值。
为解决用户面对的挑战,联想AI基础设施聚焦三大领域。一是为用户匹配经过验证优化的最佳算力,二是赋能用户充分利用算力,提升计算效率。三是以先进的液冷技术帮助用户节能增效且突破芯片散热的瓶颈。
同时,陈振宽总结了联想过去一年为AI应用大潮创新的五大技术,包括智能匹配AI算力的智算魔方,针对GPU,AI集群提效设计的先进算法,以及跨AI和HPC集群充分共享算力的超级调度器。
算力匹配魔方:基于海量的硬件评测和AI算子算法集成工作, 联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库。立体魔方中的数千个交叉点中的每一个,代表一种场景和与之最匹配的算法和集群配置。应用算力匹配魔方,用户可以跳过选择验证数十种算法和近百种AI集群配置的复杂过程,只需输入场景和数据,算力魔方即可自动加载最优算法和调度最佳集群配置。
挖掘GPU潜力的GPU内核态虚拟化技术:在AI推理和中小训练中,AI子任务多以虚拟GPU承载,而在容器和调度层做GPU虚拟化和容器间数据隔离是目前业界较普遍的做法,这使得虚拟化和资源隔离的开销造成约20%的GPU算力损耗。联想研究院与高校研究机构多年合作开发在GPU驱动层进行虚拟化和资源管理,新的算法可以将虚拟化造成的GPU损耗降至<5%,极致情况降至<1%,大幅提升GPU利用率。
联想集合通信库:联想在多年集群网络设计中积累了丰富的对大规模集群网络的拓扑优化手段,同时联想研究院与高校研究机构合作建立了基于深层数学原理的集合通信优化算法。在千卡规模训练集群,采用集成了联想集合通信库的联想异构智算平台做管理调度,可提升网络通信效率超过10%,集群规模越大,效果越显著。
高效AI断点续训技术:AI训练故障频发是常态,因此有必要在训练前设置故障检查点和备份,以备训练因故障中断时能提取备份做到从断点续训。联想异构智算平台在常规以外,深化了对软、硬件的全面监控,优化了多级存储备份架构和策略,更以多年积累的AI训练故障预测的AI模型来预测断点和提前优化备份,由此能将断点续训恢复时间缩减到分钟级。
联想AI与HPC异构集群超级调度技术:HPC集群部分会用到GPU节点,AI集群绝大部分用GPU节点。 同时拥有HPC集群和AI集群的用户希望在不同集群间根据任务优先级和资源状况共享宝贵的GPU节点资源。联想异构智算平台在AI和HPC调度之上架构了超级调度器,全局自动化管理不同类任务和调度异构资源,实现了资源动态共享。
以上这些就是联想在AI基础设施积累的三大能力和领先的五大技术创新,是联想整合全球和本地研发智慧,潜心钻研AI技术和应用发展趋势,并深耕本地客户特色需求的基础上打造的。
大会上,陈振宽正式发布了“联想万全异构智算平台”,它集合了联想在AI 2.0时代的IT基础设施技术主张。AI技术正在高速发展,联想万全异构智算平台也将布局未来,将挑战分钟内的断点续训,持续优化超大规模集群的通信算法,深入研究相变式液冷技术,并布局模块化液冷数据中心。这些技术将为中国用户提供更加强大、稳定、高效、绿色的智能算力。
评论