11月19日在 2018 年高性能计算、网络、存储与分析国际会议(以下简称 SC18)上,高性能计算机及其核心软件”重大专项总体组组长钱德沛对于中国于 2018 年开发的三个 E 级超算(即可以每秒百亿亿次浮点运算的超级计算机)原型机作了一次报告。这四十五分钟的报告不仅验证了我们之前的一些猜想,也让我们更好地了解了中国超算原型机的设计以及基础硬件构造。
钱德沛是国家“863 计划”,“高性能计算机及其核心软件”重大专项总体组组长。在开始正式报告前,他先呈现了中国在 E 级超算方面做出的努力,包括目标与其面临的挑战。钱德沛表示中国希望超算使用的技术都是“可控”的:也就是说大部分软件和硬件设施都是中国制造的。而“可控”这点在这三台原型机上完全可以体现出来。
神威太湖之光使用了 Mellanox 无限带宽技术作为互通互联结构,然而这台 E 级超算原型机使用了一款提供每秒 200GB 点对点带宽的本土网络芯片。这也契合了中国将所有 E 级超算技术本土化的战略。在此基础上,此款原型机还使用了一个神威存储箱作为它的存储系统。
和其他原型机一样,神威系统也使用了液冷系统,不同的是它的散热更偏向于传统的铜制散热片设计。
后记
这些 E 级原型机不谋而合地使用了512 节点的设计。标准化的大小让科学家更容易公平地比较它们的表现,同时还让这些 E 级原型机具有用于软件开发的每秒千万亿次浮点运算性能。虽然如此,这些 E 级原型机却不能算是 E 级超算计算机研发的基石。
这些每秒三千万亿次浮点运算的 E 级原型机更像是技术测试平台。它们很难在同一代中不借助前 E 级超算(pre-exascale)平台完成量的飞跃。虽然在两三年间我们有可能目睹 E 级超算在中国上线(尽管太湖之光已经可以每秒十亿亿次浮点运算了),但是时间仍然十分的紧迫。从现在看来,在 2020 年前上线首个 E 级超算系统的目标似乎不像两年前那么可能了,即使是晚一年上线也会是一个很难完成的重大成就。
虽然如此,中国在 E 级超算上下的功夫会影响世界超级计算机的研究趋势,这也包括了日常的高性能电脑。在摩尔定律被减慢的当下,高性能运算的意义也被数据分析以及机器学习重新定义。更多的高性能计算机设计和方法会给这个世界带来更大帮助。第一批E 级超算计算机的出现可能也仅仅只是故事的开始。