我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 683|回复: 7

[最新新闻] 谷歌新一代TPU的更多细节曝光

[复制链接]
  • TA的每日心情
    开心
    2024-6-2 18:59
  • 签到天数: 1 天

    [LV.1]初来乍到

    757

    主题

    3770

    回帖

    2660

    积分

    PADS20220105初级班

    积分
    2660

    终身成就奖特殊贡献奖原创先锋奖

    发表于 2021-5-22 22:16:32 | 显示全部楼层 |阅读模式
    Google最近谈论了它将如何致力于推动行业在SoC级别进行创新,并设计了自己的计算引擎,但该公司仍在构建自己的Tensor处理单元(简称TPU),以支持其TensorFlow机器学习框架及其在Google内部驱动应用程序,并为Google Cloud客户提供服务。



    如果您希望在本周的Google I / O 2021会议上从搜索引擎巨头和机器学习先驱那里获得有关TPUv4架构的重大启示,那么像我们一样,您无疑会非常失望。



    在他两个小时的主题演讲中,谷歌首席执行官Sundar Pichai、也是谷歌母公司Alphabet的首席执行官只是简短地谈论了由谷歌设计并可能由台湾制造的TPUv4定制ASIC。顾名思义,TPUv4芯片是Google的第四代Bfloat机器学习处理“野兽”,它与主机系统和网络结合在一起,构成了定制的超级计算机。







    Pichai在主题演讲中解释说:“这是我们在Google上部署的最快的系统,对我们来说是一个历史性的里程碑。” “以前要获得exaflops,您需要构建一台定制的超级计算机。但是我们今天已经部署了许多此类设备。很快我们的数据中心将拥有数十个TPUv4 Pods,其中许多Pods将以90%或接近90%的无碳能源运行。我们的TPUv4 Pods将于今年晚些时候提供给我们的云客户。



    看到这种创新步伐,真是太令人兴奋了。”



    首先,无论Pichai说什么,当Google在其数据中心中安装TPU Pod来运行自己的AI工作负载并允许其他人使用Google Cloud及其AI平台堆栈运行它们时,谷歌正在构建的服务绝对是定制的超级计算机。实际上,这是定制超级计算机的定义。



    Pichai对于TPUv4架构并没有多说什么,但是我们可以从他所说的内容中推断出一些东西。







    如上图,这会让某些人感到困惑。



    如果这只是一个实际的技术演示,Pichai可能会说,由于制程缩小,TPUv4以相同的时钟速度运行的计算单元是原来的两倍,因此每个TPU插槽可以拥有两倍的计算元素-大概是至少两倍的HBM2内存和至少两倍的聚合带宽来平衡它。但是Pichai没有说任何话。



    但是实际上,这就是我们认为Google所做的事情。坦率地说,这不是太大的扩展,从技术上讲,如果这是所有谷歌已经完成从TPUv3移动到TPUv4。希望还有更多。



    也许有必要进行一些审查,然后我们将解决“快2倍以上”的意思。前两代TPU和现在推出的TPU是标量/矢量处理器,带有一堆128×128 Bfloat16矩阵数学引擎,一些HBM2内存用于数学单元。



    以下图表总结了先前的TPUv2和TPUv3单元以及采用它们的服务器主板:







    基本的TPU核心是标量/向量单元-鉴于英特尔,AMD,Power和Arm处理器都具有这些元素的组合,因此我们如今将其称为CPU-具有Bfloat矩阵数学单元,Google将其称为MXU 。TPU芯片上有两个内核。MXU可以每个时钟处理16384个Bfloat格式的浮点运算,并且使用TPUv2内核可以驱动23 teraflops的Bfloat操作,每个芯片可以达到46 teraflops。



    我们从来不知道时钟速度,但是我们猜想它就像GPU一样在1 GHz以上和2 GHz以下的某个地方。实际上,我们对TPUv2的猜测是1.37 GHz,而对于TPUv3,它的猜测约为1.84 GHz。TPUv3的瓦特估算值非常低。我们认为TPUv2是在20纳米工艺中蚀刻的,而TPUv3是在16纳米或12纳米工艺中蚀刻的,我们猜测Google已将TPUv4缩小到了7纳米,并且仍然保持在每个socket中450瓦的散热范围内,需要TPUv3 Pods。我们认为TPUv4没有太多的散热空间可以提高时钟速度。如果照原样,增加的内存可能会将其推到500瓦。



    无论如何,借助TPUv3,制程缩减,使Google可以将两个MXU放在标量/矢量单位上,从而使每个内核在恒定频率下的原始性能提高了一倍;我们怀疑Google还能提高时钟速度。TPUv3每个芯片有两个内核,并将内存增加了一倍,每个内核高达16 GB的HBM2,而TPUv2芯片则为每个内核8 GB。



    因此我们认为Google已经把TPU推进到7纳米,并且在芯片上获得了四个内核。它可能是通过创建单片TPUv4芯片来实现的,或者可能正在尝试使用Chiplet,并创建了将两个或四个小芯片相互链接到一个插槽中的互连。这实际上取决于Socket对延迟敏感的工作负载的程度。因为HBM2内存挂在MXU上,所以只要MXU都具有自己的HBM2控制器,我们真的认为这没什么大不了的。



    因此,如果我们这样做,并且希望提高TPUv4芯片的良率并降低芯片成本(但要在小芯片封装上付一些钱),我们将采用四个TPUv3内核并将它们分成小芯片来制造一个TPUv4 Socket。但看起来Google坚持采用整体设计。



    我们还将尽可能提高功耗。TPUv2为280瓦,而TPUv3则以高达450瓦,以驱动123 teraflops的性能。(从TPUv2到TPUv3的时钟速度提高了33.7%,但为此付出了60.7%的功耗增加,从280瓦增加到450瓦来支付。)



    我们认为TPUv4设备上的HBM内存增加了一倍,但每个内核的HBM2内存可能相同,每个内核为16 GB。每个设备将是64 GB,这很多。(是的,我们知道Nvidia可以为每台设备提供80 GB的存储空间。)。Google很有可能将其推高到每台设备128 GB或每核32 GB的存储空间。这实际上取决于散热和成本。但是我们确实知道,谷歌和其他AI研究人员确实希望这些设备上有更多的HBM2内存。我们认为TPUv4器件的时钟速度极不可能提高很多。谁想要600瓦的零件?



    现在,让我们谈谈上面的“快2倍以上”的评论。去年7月,Google发布了一些早期数据,将MLPerf AI基准套件上的TPUv4性能与TPUv3设备进行了比较。看一看:







    在MLPerf机器学习培训基准测试的各个组件上,从具有64个芯片(128核)的TPUv3机器到也具有64个芯片(和128核)的TPUv4机器,其性能提高范围从2.2倍至3.7倍,平均约为2.7倍对于这五个测试。因此,这可能是Pichai所说的“快2倍以上”。但这不是他的图表所显示的。2X硬件峰值性能容量和MLPerf性能平均提高2.7X之间的差异是-您可以猜到-软件优化。



    TPU Pods几乎按照以下方式设计而成。这是TPUv2 Pod:







    这是TPUv3 Pod:







    最大的TPUv2映像是512核心和4 TB的HBM2内存,最大的TPUv3映像是2,048核心和32 TB的内存。



    现在,Pichai说TPUv4 Pod将具有“ 4,096芯片”,并且假设他不是核心,那可能意味着它具有4,096个插槽,每个插槽都具有单片芯片。这与Pichai所说的相符,并以Bfloat16精度使TPUv4 pod达到了1 exaflops以上。(相比之下,TPUv2 Pods只能扩展到256芯片和11.8 petaflops,而TPUv3 Pods只能扩展到1,024芯片和125.9 petaflops。)1 exaflops假定TPUv4插槽的时钟速度和散热量大致相同。TPUv3套接字和Google将socket增加了三倍。



    我们还认为,TPU实例将能够在单个系统映像中扩展所有4,096个芯片和插槽,并具有至少64 TB的聚合HBM2内存。而且由于软件的改进,更多的峰值性能将推动工作量。我们将在Google实际告诉我们更多信息时看到多少。



    最后一件事:Pichai还表示,TPUv4 Plds具有“每个芯片的互连带宽在规模上是其他任何网络技术的10倍”。与上图中的TPUv3卡相比,在查看TPUv4服务器卡时,看起来每个TPUv4插槽都有自己的网络接口。TPUv3卡有四个共享两个互连的插槽。(或者,看起来像那样。我们不确定这是正确的。那些可能是两端口路由器芯片。)。



    我们期待更多地了解TPUv4的互连。
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 16:35
  • 签到天数: 119 天

    [LV.6]常住居民II

    82

    主题

    1万

    回帖

    1万

    积分

    三级逆天

    积分
    10237

    社区居民社区劳模原创先锋奖终身成就奖特殊贡献奖优秀斑竹奖

    QQ
    发表于 2021-5-23 03:35:22 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    擦汗
    2024-8-7 10:43
  • 签到天数: 1 天

    [LV.1]初来乍到

    0

    主题

    4393

    回帖

    2964

    积分

    二级逆天

    积分
    2964

    终身成就奖特殊贡献奖原创先锋奖优秀斑竹奖

    QQ
    发表于 2021-5-23 08:37:13 | 显示全部楼层
    回复

    使用道具 举报

    该用户从未签到

    19

    主题

    1829

    回帖

    4431

    积分

    PADS-2021国庆特训班

    积分
    4431

    终身成就奖特殊贡献奖优秀斑竹奖

    发表于 2021-5-23 08:43:39 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    郁闷
    2024-8-9 20:00
  • 签到天数: 14 天

    [LV.3]偶尔看看II

    0

    主题

    1023

    回帖

    1181

    积分

    二级逆天

    积分
    1181

    终身成就奖优秀斑竹奖特殊贡献奖

    发表于 2021-5-23 08:49:24 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    开心
    昨天 15:20
  • 签到天数: 114 天

    [LV.6]常住居民II

    3

    主题

    7100

    回帖

    1万

    积分

    PADS20220105初级班

    积分
    10700

    终身成就奖特殊贡献奖原创先锋奖优秀斑竹奖

    发表于 2021-5-23 08:49:55 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    擦汗
    昨天 09:38
  • 签到天数: 120 天

    [LV.7]常住居民III

    7

    主题

    5228

    回帖

    4396

    积分

    二级逆天

    积分
    4396

    终身成就奖特殊贡献奖原创先锋奖优秀斑竹奖

    发表于 2021-5-23 09:26:22 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    开心
    6 天前
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    4

    主题

    2697

    回帖

    1552

    积分

    二级逆天

    积分
    1552

    终身成就奖

    发表于 2021-5-24 08:03:41 | 显示全部楼层
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    论坛开启做任务可以
    额外奖励金币快速赚
    积分升级了


    Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

    本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

    平平安安
    TOP
    快速回复 返回顶部 返回列表