> 云计算

更多频道

当HPC与AI趋于融合 英特尔如何构建软硬兼备的开放平台?

20天赢下170万美元,这是AI与四位顶尖德州扑克高手过招时斩获的战绩,事情发生在2017年初,开发这套名为“Libratus”引擎的是来自CMU的教授Tuomas Sandholm和他所带领的研究生,该引擎主要由三个部分组成:一个使用博弈论推理的模块、一个子游戏解算器和一个赛后分析器。当然,这里并不是要深究Libratus是用了纳什均衡还是蒙特卡洛,而是其背后的算力支持:

在竞标赛期间,Libratus使用了匹兹堡超算中心的600个Bridges超算节点,其中包括用400个节点作为残局解算器、200个节点作为自学模块。比赛当晚,Libratus还用了这600个节点对赛事进行了复盘。显然,这是一个关于HPC的问题,而且与AI产生了关联。

在HPC China 2018上,英特尔院士、HPC战略总监Mark Seager对于HPC与AI的融合表示了赞同,并将其称为“数据产业革命”。的确,无论是医疗健康、工业制造,还是交通运输、金融投资,围绕数据所产生的智能化分析充斥着人们的工作和生活,AI似乎无处不在。HPC的出现,则在算力乃至算法层面加速了这一进程。对于英特尔来说,也在以数据为中心在计算、网络、存储等方面积极布局。“HPC+AI可以把所有产业都结合起来,而AI很大程度上就是由数据所驱动的。”Mark Seager说。

硬实力构筑AI护城河

从PC到移动终端、再到各种各样的智能设备,计算的形态始终发生着变化,但核心对象一直没有变过,这也成为了驱动AI发展的关键要素,那就是数据。相关报告显示,全球90%的数据是在过去两年里产生的,到2025年全球数据量将剧增至现在的10倍,达到163ZB。然而据可靠推测,这些数据中得到利用、处理并且采取相应行动的数据占比仅约1%。换句话说,人们需要想办法挖掘这些数据背后的价值,而寻找有效的工具至关重要。

为了帮助美国能源部科学局解决模式分类科学问题,加州大学伯克利分校与英特尔合作在HPC上建立了一个15-PetaFLOP的深度学习系统,将单个深度学习模型的训练过程扩展到Cori超算9600个基于至强融核处理器的节点上,从而在15TB的数据中更高效地提取气候模型。事实上在英特尔并行计算中心的助力下,将深度学习训练扩展到近1万个节点并提供每秒1.5万万亿次训练性能的神经网络模型已成为现实。可以看到,将AI扩展到HPC不仅可以在处理复杂数据集时大幅削减响应时间,还能够获取精准度更高的模型。

2006年到2017年的十一年间,计算成本降低了56%,存储成本降低了77%,性能却提升了41倍。在英特尔高性能计算方案和销售总经理Nash Palaniswamy看来,英特尔在推动以数据为中心的转型过程中一直专注于在降低TCO的同时,不断增强整个系统的性能。不过,人工智能的应用环境无法靠单一产品线支撑,尤其是引入了高性能计算之后对于基础架构的要求更为严苛。为此,该公司构建了从计算(至强)到网络(OPA)、再到存储的全栈解决方案。

英特尔高性能计算方案和销售总经理Nash Palaniswamy展示多工作负载下的一体化架构

比较有代表性的是Persistent Memory(持久内存),在确保与内存类似读写速度的情况下,实现了更好的读写性能,单体内存最大可以支持512G。“从一个完整的存储架构角度来讲,无论是AI应用还是HPC应用,还是一般的企业级应用,都能从大容量的持久内存中受益。”Nash Palaniswamy谈到,“持久内存的闪存比SSD闪存会更快,是存储领域非常重要的创新。”

软实力带来AI新思路

当然,要想让HPC和AI实现真正的融合,考虑到每一种应用环境的差异性,对于硬件层面的要求或许会有些许类似,但底层的编程模型和软件堆栈却不尽相同。很直观的一点就是体现在HPC应用通常在高端裸机上运行,而AI应用则更多部署在公私混的云环境中。不管是像TensorFlow、Caffe这样的软件包,还是像Python、Java、Julia这样的生产力语言,似乎都跑在了AI硬件的前面。

同样,软件框架也是英特尔在人工智能领域的一个重要基础。“一直以来,英特尔都在持续研发新的东西,nGraph就是很好的例子。我们希望这些新的软件基础设施,可以跑在英特尔平台上面,为我们的客户带来更强的性能,或者帮助他们快速解决问题。”Nash Palaniswamy说。

作为一种较为流行的机器学习软件包的通用中间语言,nGraph可以在扩展的同时在CPU、GPU、FPGA等硬件上运行,并且支持TensorFlow、Caffe等软件框架,以及分布式训练和多主机。通常,这种模型可以在运行代码时优化前端的数据流,从而在硬件设备上实现高性能。举个例子,内存性能是困扰AI性能的老大难问题,而nGraph则可以通过技术优化将内存使用量减少五至六倍。

另一个应用实例是英特尔®DL Boost。“在这个功能上面做INT8运算时,最高可以提升大概11倍性能。比如做纯粹的训练运算时,我们已有的软件优化条件下可以做到1.4倍的性能提升。”Nash Palaniswamy表示,“另外可以试想,如果客户一个星期可能只训练一次,为了这一次训练还要单独采购一个额外的加速器,对其也是不小的开销。而在英特尔整体性能提升的情况下,客户完全可以把训练工作放在英特尔已有的平台上面做处理。”

融合源于平台的开放

对于英特尔来说,AI只是整个HPC应用范畴内的一个重要分支,其他还有模型、验证、仿真、可视化等业务运行在不同的行业场景中。例如在电影《巨齿鲨》中,英特尔使用2500个至强处理器和近10万个核心完成了震撼的特效渲染,再加上高性能运算和AI数据分析,这些都是在英特尔平台上所完成的。“英特尔希望有一个一致性的平台,可以帮助客户无需切换到不同的平台,就能解决AI开发问题。”Nash Palaniswamy说。

这个平台为什么要英特尔来做?Nash Palaniswamy以诺华的药物研发为例,期间会产生大量的大尺寸图像,由GPU内存处理时效率会非常低,即使可以完成性能也会很有限,“因为同一个系统里面不可能做到更大,也不可能在GPU上增加更多像HBM2这样的高速内存,从经济角度上来讲是很贵的。如果能够利用传统方式,比如至强的基础架构,就会很容易解决这样的问题,不需要额外的更多投入。”

可以预见的是,将有更多基于Cascade Lake的AI推理机器出现,像英特尔的平台上已经可以运行超过16万个处理器的机器,而且确保了良好的性能。同时,英特尔还会提供FPGA Stratix 10、HBM2等等丰富的“增值”服务,让平台变得更有吸引力。更重要的是,英特尔也在构建AI开发者生态,以及像OPENHPC这样的社区,以开放的架构让更多的合作伙伴参与进来,推动HPC+AI的普及化。

就像Nash Palaniswamy对笔者所说的:“HPC与AI的整合不仅要有硬件的支持,上层的软件、虚拟化等技术同样不可或缺。对于英特尔来说,开源、开放是很重要的一个方式,我们希望通过开源合作的态度,加上我们已有的各类方案,去解决人们所遇到的不止于AI的更多问题。”

热门评论

更多评论

相关阅读

点击加载更多
全站导航
0

发评论,赚金豆

0