中国超算都排世界第一了，但CPU为什么还这么弱？

shuszhao · 发表于 2017-12-22 17:50:31

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

网上有讨论，为什么中国超算很牛，但CPU不行的话题。好多年前，小编还在读大学时就注意到了这个问题，但现在还是这样吗？我想我们可以从超算用CPU和民用CPU这两个方面来讨论。

最近EDN小编看到网上有讨论，为什么中国超算很牛，但CPU不行的话题。好多年前，小编还在读大学时就注意到了这个问题，但现在还是这样吗？我想我们可以从超算用CPU和民用CPU这两个方面来讨论。首先我们来看超算用CPU。

神威•太湖之光登顶500强榜单

我们先看下这个新闻。去年6月20日德国国际超级计算机大会（ISC）公布了新一期世界计算机500强榜单，我国最新超算神威•太湖之光登顶。最受关注的是，神威•太湖之光实现了核心处理器的全国产化。
神威•太湖之光击败了霸占榜首3年的“天河2号”。运算速度达到93PFLOPS，理论最高速达125.4PFLOPS。这一数值约为“天河2号”的两倍。
区别于天河2号采用的英特尔Xeon E5-2692v2 12核处理器，神威•太湖之光首次采用国产核心处理器申威26010（SW26010）。它集成了260个运算核心，每块运算能力为每秒３万多亿次，约等于20台家用计算机……

在超算方面，异构计算已取代同构计算

在超算方面，异构计算已经基本取代了同构计算。而且，随着Intel大力发展CPU+FPGA，AMD大力研发CPU+GPU，异构计算也将越来越多地进入人们的视野。在国外公司积极布局异构计算的同时，国内公司也不甘落后。
事实上，最近几年曾经在TOP500刷榜，或者排名靠前的超算都采用了异构计算——中国神威•太湖之光、美国泰坦、中国天河1号和天河2号。
泰坦有18688个运算节点，每个运算节点由1个16核心AMD Opteron 6274处理器和1个NVIDIA Tesla K20加速器组成，共计299008个运算核心，属于CPU+GPU。
天河1号使用了14336片Intel Xeon X5670处理器和7168片NVIDIA Tesla M2050高性能计算卡，属于CPU+GPU。
天河2号有16000个计算节点，每个节点由2片Intel的E5 2692和3片Xeon PHI组成，共使用了32000片Intel的E5 2692和48000片Xeon PHI，属于CPU+众核芯片。正在升级的天河2号则将美国的Xeon Phi换成了自主研发的矩阵2000，属于CPU+DSP。

申威处理器强在众核堆算力

仔细研究我们不难发现，超算的算力大小并不仅仅依赖CPU。超算需要的是浮点算力，而目前市售CPU先天就有不足，比起GPU和其他协处理器都差得远。
在天河一号和天河二号中，真正为超级计算机提供算力的是GPU和协处理器。那时候处理器都是直接买的，天河一号和天河二号基本上用的是Intel Xeon E5/Xeon Phi，还有AMD的显卡。之后美国开始对华限制出口，主要是禁运Xeon Phi、NVIDIA Tesla等产品，CPU倒是没那么严。
我国在神威•太湖之光上就开始使用自研处理器了。记得去年清华大学微纳电子学系魏少军教授曾表示，报纸上、媒体上或者专家讲的一些话，把我国神威•太湖之光的发展和美国对我们的禁运连在一起是胡说八道。神威•太湖之光用到的计算机芯片是我国2009年就布置的课题。我国经过7年的时间努力做下来的，和美国制裁没有半点关系。
总体来看，神威•太湖之光整套系统使用了40960颗处理器，总计拥有10649600颗核心、1.31PB内存，理论峰值性能125435.9TFlops，实际最大性能93014.6TFlops，效率达74%，相比之下天河二号的效率只有62%。
但是，神威这么强的运算能力实际是堆出来的——SW26010本质上和Intel LGA接口的Xeon Phi的设计思路相似，是众核堆算力，但超算比的就是并行度和设备的规模。另外其在工艺方面是28nm，能效比Intel强得多。

登录/注册后可看大图

神威的处理器虽然看起来并不是很出色，但是整个超算强就强在并行处理十分巧妙。我国CPU落后人家这么多年，还被技术封锁，短期内超越并不十分可能。因此，我们科研人员将目光转向了处理器的相互连接上面，这也是为什么神威能够被美日等国称赞的点。
另外它能效比也非常高。神威的能耗为15.371MW，这个能耗看起来挺大，但是比天河二号的能耗17.808MW小。神威在提升浮点运算能力的同时，还把能耗降下来了。
但是，就算最新的“神威•太湖之光”也存在着短板。它使用的是相对较旧的内存芯片技术，这意味着与美国目前运算能力最强的超级计算机相比，它的处理器数据存取速度会受限。另外，这台新型中国超级计算机仍旧是基于美国的光纤网络技术研发的，该技术主要用于连接数以千计的微处理器芯片。
另外，除了CPU设计的问题，CPU加工也很重要。一方面需要非常好的工艺流程，另一方面制造高性能微纳电子器件需要很精密的特种仪器与设备。这些工业仪器设备一台动辄几百上千万美金。其背后也有一个庞大的现有利益链条。
比如光刻机，做CPU最核心的设备。全世界最好的光刻机是荷兰人制造的，长期供应Intel、高通等少数企业。荷兰人不敢得罪这些大金主，所以也就不太可能把最好的设备卖给中国。

神威的CPU既然可以众核堆算力，那我们什么时候可以用到PC中？

市场上不可能买到SW26010这类处理器，而且它给PC用也毫无意义。
现在PC端CPU已经被x86占领，移动平台已经被ARM占领。这两个架构在两个平台上已经积累的大量的软件基础，互相之间都很难进军对面的领域。Intel在移动领域狂砸了一百亿美元，最后的结果也只是大败而归。
另外一方面，神威•太湖之光使用的SW26010的众核架构并不适合消费级CPU，原因就是在于单核性能羸弱。曾经有一个很经典的比喻，把CPU比作四个大学教授，把GPU比作几千个小学生。这样看，SW26010和Intel的Xeon Phi，大概相当于几十、几百个中学生了。
即使是以浮点运算为标准，SW26010一个核心也只有不到12GFLOPS的水平，而Intel的CPU单核浮点运算能力又是多少呢。

登录/注册后可看大图

Haswell i7 4770k在使用AVX2指令集以后，双精度浮点性能可以达到224GFLOPS，单核已经达到56GFLOPS，相比IVB已经翻番。不过这带来的实际体验上的差距基本上就是挤牙膏,甚至还因为加入的指令集给了Haswell一个绰号——Hotwell。
当然CPU不是专门拿来做这种浮点运算的。Intel最新的协处理器Xeon Phi包含有72个协处理器核心，通过更为强大的AVX512指令集也实现了3TFLOPS的运算能力，一个核的浮点运算能力来说并不输Haswell和Skylake多少。如果拉到相同频率，可能比Skylake还要强。这也只是使用Atom核心改进出来的协处理器而已。即使被AVX512赋予了强大的浮点运算能力，当民用CPU用单核也不过还是在Atom的水平上。
而无论从功耗还是从浮点运算能力进行判断，SW26010在功耗如此低，而且单核浮点能力远弱于Xeon Phi的情况下，单核恐怕可能也只有Atom的几分之一了，可以说是普遍弱于现在的PC以及手机处理器。
而民用的应用大多数比较吃单核，基本上2-4个核就能满足日常需求，多了也没用，e5拿来跑游戏明显不如i7。当然在超算上就不一样了。大量并行度高的运算，并不是太在意单核性能，所以SW26010还是只能用于超算平台。而且对于超算来讲，也不是所有的运算都适合神威•太湖之光这种架构。
所以说，SW26010这种CPU和民用市场没关系。另外，除了适应不了市场外，没专利、没授权也是SW26010无法商用的原因。

		自动登录	找回密码
密码			立即注册

[零组件/半导体] 中国超算都排世界第一了，但CPU为什么还这么弱？

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

终身成就奖

特殊贡献奖

原创先锋奖

金点子奖

优秀斑竹奖

宣传大使奖