11月15日,京华超越“发布日”。

随着第二届中国超级计算大会的召开,2020年中国高性能计算机性能排名前100名揭晓。

榜单前两名五年未变,依然是大家熟悉的两台“前世界第一超级计算机”——“神威太湖之光”和“天河二号A”,分别部署在国家超算无锡中心和国家超算广州中心(注!机器5年升级)。

榜单上排名3、4的都是新面孔。

其中,第三名是北京超级云计算中心(A区)。其设备供应商是戴尔科技集团。Linpack的测试性能达到3.743PFlops,峰值性能达到7.035PFlops,采用AMD最新的骁龙处理器“罗马”,为其提供澎湃的计算能力。北京超级云计算中心由中国科学院和北京市政府共建,位于北京怀柔科学城。

榜单第四名是部署在内蒙古和林格尔新区的“内蒙古高性能计算公共服务平台”,建设方为清华同方;5 ~ 10名被联想沈腾8800系列占据。排名榜单最后的机器性能为1.869PFlops,比去年提升了33.2%。

虽然榜单看似变化不大,但综合分析还是有不少亮点。

01

国家超算大国地位不可动摇。

榜单前两名无锡超算和广州超算是国家超算的杰出代表。

众所周知,这两款设备都曾在全球超级计算TOP500榜单中排名第一。其中,天河二号(含升级版天河二号A)在2013年6月至2015年11月连续6次位列500强第一;2016年6月至2017年12月,神威太湖之光连续四次蝉联500强榜首。

当然,两台国家超级计算机的贡献并不仅限于TOP500的排名,它们还为我国超大规模计算机的研制、部署、软件开发和应用做出了巨大贡献。

以神威太湖之光为例。

2016年,在该机器获得世界上第一个超级计算称号后,中国科学家杨超等人凭借其上运行的数千万个核应用首次获得“高性能计算诺贝尔奖”。这一最高奖项被美国和日本垄断了近30年。

2017年,青年科学家傅浩环等人凭借基于神威太湖之光的“非线性地震模拟”应用,再次帮助中国获得“戈登贝尔奖”。

连续两年获得“戈登贝尔奖”,对推动我国超算应用发展,提高我国超算软实力,乃至提振我国超算士气具有重要意义。

当然,国家超算作为国之重器,在承担加速学科交叉和信息化发展、加快产业转型和融合升级、培养复合型人才等国家使命中也发挥着重要作用。

以“天河二号A”为例,多年来一直为大气-海洋环境模拟、天文地球物理、工业设计制造、生物医学健康等方面提供计算能力和计算应用支持。

02

通用和工超是重要的补充。

国家级超级计算机是大家伙,是重型武器,可以加载1万、10万甚至1000万以上核心的应用。但在“国民经济主战场”,更多的应用无法达到国之重器的高度,这也要求超算不能只“飞入寻常百姓家”。

简单来说,国超就是国家战略计算设备,不仅要有,而且要尽可能“大”,与世界一流水平同频共振;各行各业使用通用超算和行业超算作为生产工具同样重要,但这类设备不追求“大”,而是追求通用性、易用性和易用性。

位列百强榜第三位的北京超级云计算中心(A区),是一台不折不扣的通用超级计算机,服务于上千个行业,是国家超级计算的重要计算能力补充。

鉴于这个集群系统的代表性,以及之前集群非常低调,公开信息很少,所以本文用了比较长的篇幅做了一些介绍和分析。

北京超级云计算中心(不要被名字迷惑,不是我们常说的云计算,而是以云服务形式提供超级计算能力的平台)于2011年依托中科院计算机网络信息中心成立,由北京贝隆超级云计算有限公司负责运营,位于怀柔科学城。

这次上榜的是北京超级云计算中心的分区A(为什么“分区”后面详述),计算能力规模为3.743PFlops,均为通用X86超级计算机。

通用X86超级计算在圈内也被称为“纯CPU通用计算能力”。这种计算能力资源由于生态完善,代码可移植性强,非常人性化。

更值得一提的是北京超级云计算中心提供计算能力的模式。顾名思义,该中心以“超级云计算服务”的模式按需为用户提供计算能力,这是其最大的特点。

早些时候,有人说超级计算机将从“老王谢燕”飞到“寻常百姓家”。怎么飞?北京超级云计算中心的实践证明,“超级云计算服务模式”是一种有效的方式。

我们来看几个例子。

03

“超级云计算”的几个案例

“金风科技”成立于1998年,是中国风电产业发展的见证者和推动者。金风科技打造的仿真软件“风匠”系统是一款“更适合中国风资源特点的仿真软件”。依托北京超级云计算中心的支持,金风科技以北京超级云计算中心A事业部为主要资源,进行风资源评估相关的业务生产和产品研发。

为了满足金风科技不同业务部门的需求,在计算资源方面,北京超级云计算中心提供了独占使用、核心覆盖使用等多种方式,同时提供了丰富的配置资源,通过弹性扩展保证了其能够有效支撑峰谷使用需求。

经过在分区A中的测试和日常生产,整体计算性能和速度得到了显著提升

金风科技相关负责人在用户试用报告中写道:“在技术支持和资源效率方面,基于我们的系统需求,提供了多种接入方式和技术支持,并提供专属技术支持人员提供资源。使用分区A资源的计算过程中系统没有问题。”

提供一种灵活的独占和包容使用模式来满足对计算资源的需求,除了金风科技,还有一长串的受益者。

其中就有自然资源部海洋环境科学与数值模拟重点实验室。其首席科学家宋振亚表示,partition A计算速度快,节点数量多,通信性能高,并行扩展性好,可以多种方式使用,高效便捷。

同时,经过一周多的不间断运行,实验室在系统上没有任何问题,计算的数据已经过验证,结果正确,“说明系统稳定可靠。”宋振亚表示,他们有计划将自主研发的短期气候预测系统移植到北京超级云计算中心A分部进行业务运营。

中国科学院院士、中国科学院物理研究所研究员向涛是我国凝聚态物理研究的重要力量。他们的研究组长期致力于张量重整化群方法的发展和应用。但要开发应用这种方法,不仅要满足多核并行,还要有大内存支持。

北京超级云计算中心A分区的计算资源,每节点64核,内存高达256G,正好可以满足向涛课题组对计算资源的要求。很快,A科就成了这个课题组科研的有力工具。

"我们学会了节省时间和精力。"

向涛院士课题组的研究人员评价说

如前所述,分区A只是北京超级云计算中心的一个主分区。除了分区A,北京超级云计算中心还有分区T、分区M、分区IO,以及科技云的分区9、分区12、分区15、分区17、分区19。

为什么有这么多分区?

对于超算的需求方,他们对超算的需求是多种多样的。有些需要更多的燃烧计算,有些需要更多的内存,有些需要更快的数据传输。所有这些分区之所以存在,是因为它们为对计算资源有不同需求的用户提供了更方便、更高效的服务。

北京超级云计算中心仍在动态扩张,不断“分蘖”,这也表明了其以用户服务为核心,“将超级云计算服务模式进行到底”的决心。

04

中国超算既要“砸天”,也要“地气”

超级计算机是一个重要的基础工具。没有太湖神威之光、天河二号、曙光星云等大国,我们就无法实现前沿科技的突破,向科技的广度和深度进军。

但同时也应该看到,中国经济社会的进步,各行各业升级发展需求的日益增加,也在呼唤能够更加接地气的海量计算应用,呼唤能够提供超级计算能力、提供计算服务、提供大数据处理能力的北京超级云计算中心、阿里云、华为云等一系列行业贡献者。

还需要指出的是,“计算”作为支撑和工具,只是先进生产力链条中的一环。除了计算,数据收集和处理,软件设计和优化,模型模式开发等。需要更多行业内外的人参与进来。

今天名单上的所有集群都只是超级计算作为硬件形式的一种体现。这些“大家伙”要想成为真正的生产力,需要跨越超级计算硬件和应用之间的“死谷”。

北京超级云计算中心思考并实践解决这一问题的方法是“超级云计算服务模式”,但这就够了吗?

美国一直对超级计算部署有详细的规划。从美国能源部制定和实施的国家战略计算计划(著名的NSCI计划)到百亿亿次计算R&D计划(ECP计划),都强调多部门协作和更加重视应用。

特别是ECP计划,美国计划在5年内投入“18亿美元和18亿美元”,其中一半用于E级计算机的开发,一半用于研发应用。

超算行业专家、中山大学数据科学与计算机学院院长钱曾总结过我国超算应用的软肋:应用软件匮乏、人才匮乏、缺乏有效合作。归根结底,我们需要一个完美的“超级计算”环境。

无论国家超算、通用超算、工业超算、商用超算,现有的形式真的无所谓,可以兼容,可以收集,但是要用。只有形成健康的应用生态,中国超算才能真正一往无前。编辑AJX