> 云计算

更多频道

HPC工程软件路漫漫 全面国产化离不开生态

1945年7月26日,美国在新墨西哥州爆炸了世界上的第一颗原子弹(1.9万吨),七年3个月之后,第一颗氢弹经历了32次空爆试验后爆炸成功。而在新疆的罗布泊,中国分别在1964年和1967年成功爆炸了首颗原子弹和氢弹,两次试验仅相隔两年8个月……这就是有计算机和没有计算机的差别。当年,中国用了七台计算机,其中两台是自主研发,不仅大幅缩短了研发和测试周期,还节省了很多经费。

SUMMIT(图片来自U.S. Dept. of Energy)

在当时的发射任务中,由中科院计算所在1960年提供的计算机还只是每秒1万次的运算速度,经过70年的发展,超算的运行速度已经达到亿亿次/秒级别。时至今日,人们讨论的已经是何时才能摘下“E级”计算这颗超算界的“皇冠”。那么或许有人会问,什么才是HPC(高性能计算)呢?套用美国总统信息顾问委员会的一句话:HPC就是利用先进的计算能力理解和解决复杂的问题。

回顾我国超算领域的发展路径,可以从TOP500和TOP100中一窥究竟。自1993年以来,国际TOP500组织每年都会按照Linpack测试性能公布全球已部署的前500台超算,每年会有两次排名,而TOP100则是由中国发起的本土排名。在TOP100中,2002年到2007年国外的进口计算机占据超过60%的份额,但随着时间的推移,国产计算机在榜单上不断地增加,并在2011年第一次超过了进口计算机,2017年国产计算机占比达到99%,只有1台惠普的计算机在TOP100中。

TOP500的境况与之类似。TOP500中前10年的计算机,大部分安装在美国、欧洲、日本,生产厂商主要是美国跟日本。例如在2002年11月,TOP500前50计算机的部署情况分别是美国35台、欧洲9台、日本5台,生产厂商来自美国的占43台(主要是IBM、惠普、戴尔),日本有6台,只有1台是联想研制的安装在中科院数学和系统所的深腾1800万亿次计算机,排名第43位。不过在数年之后,中国研制的计算机在TOP500中发生了巨变:2010年天河一号A以2.57pflops名列第一,2013年-2015年天河二号名列第一,2016年-2017年神威·太湖之光名列第一。

算上今年6月公布的TOP500——部署在美国能源部橡树岭国家实验室的SUMMIT以测试性能122.3pflops、峰值性能187pflops的成绩夺得榜首。从过去数年的榜单中,可以发现三点规律。

第一,排名前10位的机器多是由国家投资,或者说是为了解决国家的重大问题。举个例子,SUMMIT的系统共有4608个计算节点,每个节点是两个22核的Power9,单个CPU可进行32个浮点计算,节点之间所用的专用网络可以到25G,系统内存达到10PB,峰值性能与内存的比值将近19,是前几名中靠前的,这正是美国能源部的特点,原因是能源部有一些超大规模辐射流体的计算,需要计算出较高的计算效率,如果内存小的话,速度的交换能力、交换效率就会比较低,而且SUMMIT的存储系统也达到了250PB。

第二,中美两国在TOP500中的HPC安装套数逐渐在拉大,早在2017年11月中国就以202套超过了美国的143套,今年8月又继续保持了领先。由此可以引发出两个结论,一个是中国在HPC应用领域走在了前列,早在2016年6月基于太湖之光系统的三项全机应用就入围了有超算界诺贝尔之称的“戈登贝尔奖”,算是对HPC行业化的肯定。另一个就是中国厂商的技术实力得到了市场认可,体现在联想以117套的上榜系统超过了惠普夺得全球第一。

第三,翻看2017年的中国TOP100榜单,超过80%的计算机都是新上榜的,也就是说计算机性能的更新换代是非常快的,这些HPC在研制成功后要尽快应用,否则就会消耗高昂的经费。尽管SUMMIT的峰值性能几乎是太湖之光的两倍,但是其占地面积相当于两座网球场,所使用的循环系统每分钟会消耗1.5万升水,用于冷却3.7万个处理器。

从以上的信息不难看出,HPC的性能之争是永无止境的,而且中国在其中的硬件实力已经不落下风。在E级计算时代,SUMMIT被赶超只是时间问题,要知道HPC的“摩尔定律”是每十年性能会成长1000倍。由国家出资支持的HPC系统,或许可以更快、更强,但并不能真正体现HPC在一个国家的应用价值。

国家超级计算广州中心主任卢宇彤在本科毕业时就参与了银河二号的研制,20多年里一直从事着银河和天河系列计算机的研发工作,是天河二号的副总设计师,她向笔者透露,中国已经部署了三套E级计算原型机,根据十三五规划会在2020年正式推出E级系统。值得一提的是,神威E级原型机所承担的35项计算任务中,已有6项入围了“戈登贝尔奖”。

由此,我们不妨从软件和应用的角度来进一步探讨。尼葛洛庞帝曾经提到,技术创新是互联网未来发展的主要驱动力,而人工智能恰恰走到了技术与商业的十字路口。对于人工智能来说,HPC为其提供了计算引擎,大数据则提供了数据引擎,三者的融合发展应该是长期趋势。

普华永道预计,到2030年AI对全球经济的贡献将达到15.7万亿美元,进而推动当年的全球GDP增长14%。其中,中国从AI获得的好处要多于其他任何国家,原因是制造业在中国GDP的占比更高。一方面,AI促进了企业内部流程迈向自动化,加强单位劳动力价值,另一方面AI也刺激着用户的消费需求。为什么工业领域会贡献这么多价值?答案就是数据,也是HPC+AI融合发展的前提。

此前,笔者曾听到长城汽车IT管理本部系统科负责人林海鑫感叹:“开始想要投资HPC的时候找了国际知名的硬件厂商,他们讲的更多的架构和硬件层面,一问到怎么建就说要参考软件,因为不同软件对硬件和中间层的调度是不一样的。后来我们找了软件厂商,他们又给推到了硬件厂商,而中间层的厂商又告诉我要软硬结合。”

这一过程中,反映出了一个关键点,那就是工程软件的缺乏,同样这也是困扰HPC全面国产化的难题。由江南所研发的申威26010众核处理器在芯片架构上实现了国产化,但国产HPC工程软件的短板却一直难补足,而且这很大程度上限制着国产芯片的发展。从行业属性来看,工程软件的问题不是IT所能解决的,更多要靠工业领域的积累,并非一朝一夕,尤其是对于非x86架构的系统来说,第三方的软件支持更为困难。

既然HPC的演进是与AI和云产生交集,那么其就要有一个与之对应的工作环境,平台化的应用软件就是其中之一。用中国工程院院士、“天河一号”和“天河二号”总设计师、国防科大计算机学院院长廖湘科的话说,如果说单位有500个软件,那一定是平台化没做好,某个领域若是只有1-2个软件,那路子就是对的。其实超算发展到今天,学科交叉已经是必然的,像工程软件是搞计算机的人开发不出来的,势必要将计算机、工业、大数据相结合。

长期来看,软件+基础设施的并行前进是趋势,其另一个好处还在于对HPC系统的管理,具体讲就是以往HPC的CPU动起来就是全力运转,而通过对系统应用的分析,软件可以做到根据需求来调节时钟速度。

当然,根据亚当斯密的基本杠杆原理,需求决定了供给,同样也决定了生态系统的完善程度。虽然中国有引以为傲的阿里、腾讯、华为,但始终没有世界级的软件公司,而只有随着场景越来越丰富,才可能出现工程软件。微信依靠2C群体拿到了过10亿的MAU,2B企业的用户增速并不落后,而且数字化转型和国家改革战略的需求也在逼着他们去改变,这样也就为HPC的落地场景铺平了道路。

如今,一些IT厂商已经在借助OpenStack等开源平台的力量,去开发应用软件,由行业客户根据自己的需求来进行维护。同时,也会引入ISV和其他软件厂商加入其中。例如,如果应用了SAP的技术要经过SAP的认证,其会根据用户的机器设置来做软件的调整,而这就需要硬件厂商和软件厂商进行深度的合作。无论是像大庆油田这样的传统能源企业,还是长城汽车这样的传统车企,都已经在利用AI来进行勘测分析和工程仿真了。

好的一面是,人们已经意识到工程应用软件的重要性,无论是产业资本的倾斜还是国内的应用开发大赛,都在将HPC的软件研发与商业化连接起来。这种跨学科平台化的软件设计,也会让大家的需求通过相对“标准化”的方式实现,就像PC用Windows一样简单。只有这样,才会有一个良性的国产HPC生态。

下载ZOL APP秒看最新热品

热门评论

更多评论

相关阅读

点击加载更多
全站导航

发评论,赚金豆

0 0