我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 1273|回复: 0

[零组件/半导体] 中国超算都排世界第一了,但CPU为什么还这么弱?

[复制链接]
  • TA的每日心情
    无聊
    2 小时前
  • 签到天数: 69 天

    [LV.6]常住居民II

    1万

    主题

    8194

    回帖

    5万

    积分

    三级逆天

    积分
    53630

    终身成就奖特殊贡献奖原创先锋奖金点子奖优秀斑竹奖宣传大使奖

    发表于 2017-12-22 17:50:31 | 显示全部楼层 |阅读模式


    网上有讨论,为什么中国超算很牛,但CPU不行的话题。好多年前,小编还在读大学时就注意到了这个问题,但现在还是这样吗?我想我们可以从超算用CPU和民用CPU这两个方面来讨论。


    最近EDN小编看到网上有讨论,为什么中国超算很牛,但CPU不行的话题。好多年前,小编还在读大学时就注意到了这个问题,但现在还是这样吗?我想我们可以从超算用CPU和民用CPU这两个方面来讨论。首先我们来看超算用CPU。


    神威•太湖之光登顶500强榜单

    我们先看下这个新闻。去年6月20日德国国际超级计算机大会(ISC)公布了新一期世界计算机500强榜单,我国最新超算神威•太湖之光登顶。最受关注的是,神威•太湖之光实现了核心处理器的全国产化。
    神威•太湖之光击败了霸占榜首3年的“天河2号”。运算速度达到93PFLOPS,理论最高速达125.4PFLOPS。这一数值约为“天河2号”的两倍。
    区别于天河2号采用的英特尔Xeon E5-2692v2 12核处理器,神威•太湖之光首次采用国产核心处理器申威26010(SW26010)。它集成了260个运算核心,每块运算能力为每秒3万多亿次,约等于20台家用计算机……


    在超算方面,异构计算已取代同构计算

    在超算方面,异构计算已经基本取代了同构计算。而且,随着Intel大力发展CPU+FPGA,AMD大力研发CPU+GPU,异构计算也将越来越多地进入人们的视野。在国外公司积极布局异构计算的同时,国内公司也不甘落后。
    事实上,最近几年曾经在TOP500刷榜,或者排名靠前的超算都采用了异构计算——中国神威•太湖之光、美国泰坦、中国天河1号和天河2号。
    泰坦有18688个运算节点,每个运算节点由1个16核心AMD Opteron 6274处理器和1个NVIDIA Tesla K20加速器组成,共计299008个运算核心,属于CPU+GPU。
    天河1号使用了14336片Intel Xeon X5670处理器和7168片NVIDIA Tesla M2050高性能计算卡,属于CPU+GPU。
    天河2号有16000个计算节点,每个节点由2片Intel的E5 2692和3片Xeon PHI组成,共使用了32000片Intel的E5 2692和48000片Xeon PHI,属于CPU+众核芯片。正在升级的天河2号则将美国的Xeon Phi换成了自主研发的矩阵2000,属于CPU+DSP。


    申威处理器强在众核堆算力

    仔细研究我们不难发现,超算的算力大小并不仅仅依赖CPU。超算需要的是浮点算力,而目前市售CPU先天就有不足,比起GPU和其他协处理器都差得远。
    在天河一号和天河二号中,真正为超级计算机提供算力的是GPU和协处理器。那时候处理器都是直接买的,天河一号和天河二号基本上用的是Intel Xeon E5/Xeon Phi,还有AMD的显卡。之后美国开始对华限制出口,主要是禁运Xeon Phi、NVIDIA Tesla等产品,CPU倒是没那么严。
    我国在神威•太湖之光上就开始使用自研处理器了。记得去年清华大学微纳电子学系魏少军教授曾表示,报纸上、媒体上或者专家讲的一些话,把我国神威•太湖之光的发展和美国对我们的禁运连在一起是胡说八道。神威•太湖之光用到的计算机芯片是我国2009年就布置的课题。我国经过7年的时间努力做下来的,和美国制裁没有半点关系。
    总体来看,神威•太湖之光整套系统使用了40960颗处理器,总计拥有10649600颗核心、1.31PB内存,理论峰值性能125435.9TFlops,实际最大性能93014.6TFlops,效率达74%,相比之下天河二号的效率只有62%。
    但是,神威这么强的运算能力实际是堆出来的——SW26010本质上和Intel LGA接口的Xeon Phi的设计思路相似,是众核堆算力,但超算比的就是并行度和设备的规模。另外其在工艺方面是28nm,能效比Intel强得多。


    神威的处理器虽然看起来并不是很出色,但是整个超算强就强在并行处理十分巧妙。我国CPU落后人家这么多年,还被技术封锁,短期内超越并不十分可能。因此,我们科研人员将目光转向了处理器的相互连接上面,这也是为什么神威能够被美日等国称赞的点。
    另外它能效比也非常高。神威的能耗为15.371MW,这个能耗看起来挺大,但是比天河二号的能耗17.808MW小。神威在提升浮点运算能力的同时,还把能耗降下来了。
    但是,就算最新的“神威•太湖之光”也存在着短板。它使用的是相对较旧的内存芯片技术,这意味着与美国目前运算能力最强的超级计算机相比,它的处理器数据存取速度会受限。另外,这台新型中国超级计算机仍旧是基于美国的光纤网络技术研发的,该技术主要用于连接数以千计的微处理器芯片。
    另外,除了CPU设计的问题,CPU加工也很重要。一方面需要非常好的工艺流程,另一方面制造高性能微纳电子器件需要很精密的特种仪器与设备。这些工业仪器设备一台动辄几百上千万美金。其背后也有一个庞大的现有利益链条。
    比如光刻机,做CPU最核心的设备。全世界最好的光刻机是荷兰人制造的,长期供应Intel、高通等少数企业。荷兰人不敢得罪这些大金主,所以也就不太可能把最好的设备卖给中国。


    神威的CPU既然可以众核堆算力,那我们什么时候可以用到PC中?

    市场上不可能买到SW26010这类处理器,而且它给PC用也毫无意义。
    现在PC端CPU已经被x86占领,移动平台已经被ARM占领。这两个架构在两个平台上已经积累的大量的软件基础,互相之间都很难进军对面的领域。Intel在移动领域狂砸了一百亿美元,最后的结果也只是大败而归。
    另外一方面,神威•太湖之光使用的SW26010的众核架构并不适合消费级CPU,原因就是在于单核性能羸弱。曾经有一个很经典的比喻,把CPU比作四个大学教授,把GPU比作几千个小学生。这样看,SW26010和Intel的Xeon Phi,大概相当于几十、几百个中学生了。
    即使是以浮点运算为标准,SW26010一个核心也只有不到12GFLOPS的水平,而Intel的CPU单核浮点运算能力又是多少呢。

    Haswell i7 4770k在使用AVX2指令集以后,双精度浮点性能可以达到224GFLOPS,单核已经达到56GFLOPS,相比IVB已经翻番。不过这带来的实际体验上的差距基本上就是挤牙膏,甚至还因为加入的指令集给了Haswell一个绰号——Hotwell。
    当然CPU不是专门拿来做这种浮点运算的。Intel最新的协处理器Xeon Phi包含有72个协处理器核心,通过更为强大的AVX512指令集也实现了3TFLOPS的运算能力,一个核的浮点运算能力来说并不输Haswell和Skylake多少。如果拉到相同频率,可能比Skylake还要强。这也只是使用Atom核心改进出来的协处理器而已。即使被AVX512赋予了强大的浮点运算能力,当民用CPU用单核也不过还是在Atom的水平上。
    而无论从功耗还是从浮点运算能力进行判断,SW26010在功耗如此低,而且单核浮点能力远弱于Xeon Phi的情况下,单核恐怕可能也只有Atom的几分之一了,可以说是普遍弱于现在的PC以及手机处理器。
    而民用的应用大多数比较吃单核,基本上2-4个核就能满足日常需求,多了也没用,e5拿来跑游戏明显不如i7。当然在超算上就不一样了。大量并行度高的运算,并不是太在意单核性能,所以SW26010还是只能用于超算平台。而且对于超算来讲,也不是所有的运算都适合神威•太湖之光这种架构。
    所以说,SW26010这种CPU和民用市场没关系。另外,除了适应不了市场外,没专利、没授权也是SW26010无法商用的原因。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    论坛开启做任务可以
    额外奖励金币快速赚
    积分升级了


    Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

    本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

    论坛技术支持QQ群171867948 ,论坛问题,充值问题请联系QQ1308068381

    平平安安
    TOP
    快速回复 返回顶部 返回列表