摩尔定律失效，FPGA迎来黄金时代？

shuszhao · 发表于 2019-9-20 08:40:56

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore （超越摩尔定律），在封装层面的革新，是许多人认定延伸摩尔定律的一种可行方案。

奉行摩尔定律的历史，本质上已经不复存在了。现在业界很流行的讲法是Jim Keller提的“domain-specific （领域专用）”，即虽然晶体管数量很难按照定律攀升，但具体应用场景，对性能的渴求依然不变。为了保持芯片的性能提升，唯有针对特定场景或“特定领域”制造芯片，甚至发展成专用芯片，性能和能效比自然又能完成新一轮的飞跃。
比如谷歌在发展人工智能的过程中，脱离GPU自己开发了AI专用芯片TPU——这是个ASIC。“谷歌开始做了，Facbook，亚马逊，百度、阿里巴巴就都有可能跟进。你会发现，这些做数据中心的大型企业都会想办法做自己的芯片。这些芯片本身不一定赚钱，因为它量有限，又不对外出售，但芯片会驱动这些数据中心企业自身业务的优化，在系统层面产生经济效益。”在上海举行的CISES（中国国际半导体高层峰会）上，赛灵思中央工程部芯片技术副总裁吴欣先生和我们聊道。

登录/注册后可看大图

赛灵思中央工程部芯片技术副总裁吴欣
我们在《深度学习的兴起，是通用计算的挽歌？》一文中曾经探讨过这个问题。除了台积电、Intel这类从事制造工艺一线生产的企业，通用计算在摩尔定律上的难以为继几乎是行业共识，不过针对“domain-specific”真正的发展方向，不同层级的半导体行业参与者，在看法上却可能有着很大差别。
甚至仅是针对某一个门类的应用场景，比如AI芯片，市场参与者的态度都差别甚大。在今年的WAIC世界人工智能大会上，有学者提到AI芯片就分成两个派系，其一是谷歌TPU、地平线征途、Intel Nervana，赛灵思DPU IP为代表的专为卷积神经网络（CNN）提供加速的芯片，其二是Graphcore、Wave Computing、华为为代表，所推出的具有弱编程特性的AI芯片。这种某个特定领域相对通用，以及绝对专用的思路，都在摩尔定律发展停滞的时代，显得格外有趣。
更有趣的是，天生具有可重配置灵活应变能力的FPGA，在这样一个时代交替的过程里，异军突起，两大领头企业一个被Intel战略收购，一个股票与收入连连创纪录，应用领域全面扩展，似乎迎来了其发展历程中的新黄金时代。
那么， FPGA 究竟将在这个时代扮演何种角色？这是我们和吴欣，这个在FPGA的发明者赛灵思公司就职26年，经历过从0.6um 到 7纳米共14 代以上芯片技术开发工作的业界资深人士所探讨的话题。

最适用的才是最好的

应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore （超越摩尔定律），在封装层面的革新，是许多人认定延伸摩尔定律的一种可行方案。“赛灵思的异构集成已经做了很多年了。这张图我们也用了好几年了。”
下面这张图就是典型的一些芯片堆叠方案。这些方案的核心思路，是一块芯片上包含不同die模块，每个die可以用不同的工艺来制造，这些die再通过各类封装技术集成到同一颗成品芯片内。不同芯片互联时，会有个中介层（interposer），位于封装基板（package substrate）以及die之间。Die与die的通讯通过interposer内的互联进行。所谓的“2.5D”封装也属于此类，典型如台积电的CoWoS、Intel的EMIB（EMIB有时也被认为是单独的一个类别，因为它是在substrate中加入了一层silicon bridge）。

登录/注册后可看大图

图片来源：赛灵思
在所谓的3D封装（active interposer）中，interposer内部除了电路之外，也可以存在其他器件，典型的比如Intel的Foveros技术。3D-IC有时又指die堆叠，通过TSV一类技术在多层间实现互联，典型如索尼应用于图像传感器和ISP堆叠互联的Cu-Cu dielectric hybrid bonding，相比micro bump的密度增加将近百倍——我们在之前的文章中也提过。这类方案能够实现芯片制造和设计的效率最大化，这某种程度上是降低成本的一种方案；高速互联的3D封装，还能提升传输性能。这是它被称作摩尔定律延续的原因。
上面这张图的纵轴是连接密度，即单位面积内有多少个连接；横轴是布线密度。不同的异构封装方案，集成度是有差异的，这张图上，“越往右上角，功能就越强。左下角功能会弱一些，但成本低。”

登录/注册后可看大图

上图红色部分，是当赛灵思的FPGA按照横轴工艺节点发展，原有的照摩尔定律可实现最大逻辑单元数量；而橙色部分，则是采用异构集成之后的数量
那么是否3D封装一定更好，或者上面这张图右上角就比左下角更好呢？用吴欣的话来说：“异构集成没有好与不好之分，只有适用和不适用。”“你的产品最适合哪个，就去选哪个。”
“我们2011做的第一颗异构集成芯片是V2000T。当时，如果我们不用异构集成的话，要做这么大的芯片，很大。”吴欣用手稍稍比划了一下，“这么大的芯片，一片12寸的晶圆（wafer）在比较早期这样的芯片的良率只是两个。因为良率与面积的关系不呈线性而是呈指数关系。如果这颗芯片切分成四块，每片wafer就能有100个good dies，每四个组成一颗芯片，就有25颗芯片，考虑到额外的一些损失：哪怕损失一半，那也有12个半。相比不做异构集成，有6倍的益处。对客户来说，也就不需要花6倍的价钱去买。”
但从经济方面考虑，这种收益也并不是绝对的。“再举个例子，2014年我们知道5G是个方向，针对5G我们当时第一次把数模转换和可编程模块放在一起。我们做了一个65nm的ADC/DAC （数模转换），加上我们自己的可编程模块是28nm，两个异构集成在一起。客户说产品的确不错，但无法满足价格考量。所以一直到3年以后，工艺进步至16nm，我们最后还是把它集成在了一个单独的芯片上，monolithic (单芯片)，造价也终于可接受了。”吴欣所说的这个例子，应该是指现如今赛灵思正火的融数字与模拟为一体的RFSoC 产品系列。
“所以没有好和不好之分，只有最适合你的。”

Domain-specific的艺术

“在做这种异构集成的时候，不像过去那样——不是先想好要做异构集成，然后再去做；而是，要从架构的角度出发，我要做一个什么样的架构。这个架构要做单片也好、两个或三个die也好，架构上它们要能够可扩展。再进一步软件做什么，硬件做什么制程做什么。而不是为了做异构集成而去做异构集成。”
这两年提“架构创新”的行业参与者实际上很多，因为摩尔定律迟滞，所以才更需要架构革新。我们今年就听过各层级参与者在架构方面的革新理念，比如Cadence、Mentor这些EDA层级的参与者，除了宣传自家机器学习IP以外，就是在EDA工具流程中融入机器学习。
不过更重要的是，“系统设计（system design）”成为一个新的争夺高地。Cadence在今年的CDNLive China 2019大会上曾经提到，更偏向整个系统设计的下游企业，很多都更喜欢自己造芯片，比如iPhone的A系列SoC，以实现更佳系统性能和能耗比，与此同时还兼顾安全性。谷歌TPU亦属此类。这其实也是芯片越来越从通用偏向“domain-specific”的一种表现方式。
或许不同层级的参与者对“系统（system）”的范围界定有差异，但个中思路却是一致的。吴欣告诉我们：“以前system architecture都由system厂商去做，比如思科、谷歌就做自己的system architecture，这里面Intel只提供芯片，中间软件则由微软提供。但这种相对通用的方式，效率没那么高：这个时候通用芯片提供商不会在意客户怎么用芯片，，微软会告诉客户要怎么算，就把它算出来就好。”
“但现在你会发现，数据中心最大的成本是什么？是能源（功耗）。他们花了那么多钱去运营数据中心，然后又要花那么多钱去提供能源和冷却系统。通用芯片的效率就没有那么高，或者并不是那么好用。为了优化，谷歌于是就做了自己的TPU。”这实则也是吴欣所说，从架构的角度出发，围绕应用场景做芯片的一个具体例证。
从这个角度来看，或许现如今芯片制造商的一个很大竞争对手，已经是自己下游客户了——他们越发考虑自己做针对特定应用场景，domain-specific，同时能够和整个系统扣合更紧密的芯片。像赛灵思这样的上游玩家，为客户提供系统设计的支持实际上才显得更加迫切。

登录/注册后可看大图

在去年的Hot Chips大会上，我们就看到赛灵思题为Adaptable Intelligence: the Next Computing Era（灵活应变的智能：下一个计算时代）的主题演讲，其中提到赛灵思做出的系统级架构支持，如上图所示。吴欣特别为我们解释说：“我们原本是做最下面这层芯片。而现在为了最上层客户不同的客户需求不同，比如汽车、5G或者医疗的客户，我们及业界就把中间层级都准备好，这样每个客户就可以把自己的需求、算法很容易地融入进来。”
“大家都希望用相对domain-specific的架构，不同的客户需要不同的东西。赛灵思就提供这样一个平台，需要5G就放5G的平台，即便是5G本身，不同的参与者，比如中兴、诺基亚、爱立信，每家都有自己的算法。并非一颗芯片给所有人就都好用，但有些东西又是可以共用的，我们提供这样一个开放的平台。”
“不同的人有特别的需求，比如车载，Nissan和Mercedes想做的应用可能就不一样。应用场景不同、算法不同，我们是要让每个人都能适用。”所以，赛灵思对于domain-specific的理解，实际上更偏向于在保有FPGA灵活基础上的“专用”，针对客户仍然提供多样化的选择。

自己造芯片是趋势吗？

实际上，这里赛灵思为客户提供相对灵活的domain-specific选择，与下游客户自己选择做domain-specific的ASIC芯片，是两套方案。在吴欣看来，像谷歌这样有足够业务规模，自己做芯片设计能够促成应用层面足够经济效益的，毕竟还是少数。“而且谷歌的AI技术，也不是只需要一个TPU，它也需要我们的芯片，也需要x86。”所以并不是都会由自己去做。
半导体行业协会（SIA）2017年估算，针对新一代技术节点建工厂，配套制造设备，大约需要70亿美元。在过去25年间，构建最新制程节点工厂的投入每年平均提升11%，如果加上工艺开发，则可将成本每年推升13%（2001-2014）。实际上，现如今参与最先进制程工艺制造的市场参与者已经只剩三家了。按照历年数据，理想情况下如果这几名参与者的市场份额均分，则企业复合年增长率约14%。这样一来，和13%的成本提升两相抵消，才产生了盈余。未来5nm、3nm的成本攀升还要持续。
“从 28/20nm开始，制造成本就开始上升得比较多。主要原因是多次曝光（multi-patterning）。以前还是用193nm的光刻技术。到了20nm，只能通过多次曝光去曝出这些比193nm自身小了很多的线条。这样一来光刻的成本就增加了。简单来说，本来是一次曝光，现在两次：原来一个机台一天可以做2000片wafer，若两次曝光就只能做1000片了。一片wafer从头到尾大概需要几十步的光刻步骤，如果里面有一半需要两次曝光，成本就增加了25%。”吴欣说。
除了人尽皆知的在3nm节点时期，FinFET转向GAA，在结构上带来的成本推升，“就光刻技术来说，整个业界花了二三十年的时间把EUV（极紫外光）做出来，今后几代光刻都会使用EUV。在3nm以后，大概EUV本身就需要multi-patterning，或者加上High-NA（高数值孔径）。EUV光刻机，一台机台就需要2亿美金。台积电、Intel的新工艺生产线都需要十几台这样的设备。这些都是制造成本攀升的组成部分。”

登录/注册后可看大图

来源：BEOL Interconnect Innovations for Improving Performance, Paul Besser, NCCAVS
“后端（BEOL）的金属工艺，还需要有更新的技术来支持，金属电阻挑战性加强。”上面这张图来自2017年Paul Besser在NCCAVS的讲义，主要说的是铜线线宽与电阻（Rs）之间的关系。在其中的相应很窄线宽区域内，产生了较高的电阻。“这一层我们叫MD/VD，这一层的电阻大概会吃掉3%的性能。下一代缩一半，影响就扩大到6%，再下一代则增加到12%。所以技术进步的好处都会被它吃掉，我们就需要有新的技术工艺，或者新的架构来解决问题。”
上面这些说的还只是制造成本，在设计成本上。“以前工艺迭代，我们设计芯片，只需要了解65nm比90nm小多少，我们直接把90nm上的设计，拿到65nm工艺上，重新设计一下马上就能做，整个过程半年、一年就完成了。但现在，7nm和16nm有很多不一样的地方，不能把16nm的设计直接放到7nm里面去用，从架构到设计，到后面每部分工作都不一样——唯有重新优化才能做到最好的优化。”
“我们16nm最大的FPGA芯片VU19P，有350亿个晶体管。

登录/注册后可看大图

”设计越来越复杂，设计周期变长，需要的人员变多。做设计，过去可能只需要1年，现在就需要2年；参与芯片设计的人员过去可能是1000人，现在变成2000人（或4000人/年），成本提升到4倍。这对芯片设计而言就成了很大的负担。必须要有足够多的钱和人才，才能把芯片做出来。”
“现在和过去相比，每一代增加至少30-50%的设计成本。要自己做芯片，要准备好4000人/年，做出来之后4000人还要再做下一代。有多少业务能够承受这样的设计成本？”“有多少企业能够自己做芯片？即便谷歌，TPU部门也并不是很大，远不到自己设计、维持、运营的程度，其它的芯片供应商在这方面在为谷歌提供服务，这也是因为谷歌有钱，并不是人人都能做。”“甚至不光是设计团队的问题，现在做一套7nm mask就将近上千万美元一套。”
“以前一年超过几十万颗的量，你就可以自己做ASIC，但现在不是，没有几百几千万，没有那么大的芯片需求量，最终是不划算的。采用FPGA，或自己做芯片，这个成本收益的对接点正越来越靠后。”

5G、自动驾驶，没有想象中发展那么快

新工艺成本激增的速度，在行业平均的复合年增长率几近持平的情况下，那些市场规模足够大的参与者才有机会持续获利。”能够承受4000人/年设计成本的行业其实不多：手机是一个，因为更换频繁；电脑CPU也是，毕竟电脑也是要更新的；存储器是一个，它很特殊，数据中心等领域都需要存储，而且不嫌多；另外，游戏需求加上AI机器学习、深度学习的需要，所以GPU也是可持续的业务。”
FPGA在这个过程中，实际上是比较特殊的存在。“我们的客户各行各业的都有，每个客户拿FPGA去做不同的东西，成本会被大家分担掉，而且每个客户也就不需要花很多钱。总的市场让我们也能够走下去。”
如今出现了一些新的推动力，比如5G、自动驾驶、AI，它们都被认为是半导体行业的重要驱动力和新的机遇。不过这些行业是否如很多人所想的那样会那么快。
“其实每一代移动通讯技术基本都做了10年，而5G恐怕连10年都不止。现在大家都在做sub-6GHz的部分，而且现在主要是NSA（non-standalone），借用4G的架构和基础设施。将来4G基础设施都换成5G，才能达到5G预期的延迟（laterncy），之后才会考虑毫米波部分的发展。”
“5G最大的挑战是大量的投资资金，钱需要从更新的应用中来；所以要解决钱的问题，最终还是要靠时间。5G大概需要很长时间才会慢慢成熟起来。”
“AI、自动驾驶也是很热门的话题，但汽车的可靠性、质量要求远高于其他领域。PPM每高出一点，就是关乎许多人生命安全的问题。而且自动驾驶的成本，未来还要求做到比传统技术更低，一般人才会愿意去购买自动驾驶汽车。但要求高可靠性，成本就会很高。这之间形成矛盾，整个转换过程会很漫长。”
“应用场景也好，架构也好，其实一直都在变。”
“赛灵思是希望，当你没有4000人/年的设计成本，没有上千万、上亿的市场时，你也可以做自己需要的domain-specific的芯片，我们可以让你做到。你可能只需要400人，甚至40人就可以做出来。”“而当每次场景、架构发生变化的时候，你也不需要再用4000人/年去重新做一颗芯片，而只需要花20分钟，重新编程，重新修改。”
“等到自动驾驶汽车、5G这些市场真正成熟以后，市场规模足够大了，10-20年以后，部分行业参与者那个时候要开始做自己的专用芯片，那是可以的。不过即便到那时，即便达到Nissan、Mercedes的市场容量，做专用芯片是否划算，是否可持续成长，都将一直是挑战。”

登录/注册后可看大图

ACAP新一代计算平台，是赛灵思对上述理念的践行，是期望以AI和部分模块的固定化实现更高的效率，同时又有FPGA的灵活性。“FPGA比较方便，编程比较快，但以前效率没那么高。编程本身需要很多资源。数据在里面走的时候远没有ASIC来的快，或者也没有GPU快。我们也考虑这个问题，所以我们在里面放了很多硬化模块。数据要走这些模块时，我们就已经准备好了，所以不会比用ASIC来得慢。
显然在赛灵思的眼中，摩尔定律的放缓甚至失效，以及3D-IC异构集成为摩尔定律的“续命”，都是FPGA发展的重要机遇。基于两个原因：一是domain-specific成为推动特定行业、领域发展的关键词；二是半导体从设计到制造成本越来越高，一般的行业和企业都难以承受。以及在5G、自动驾驶等新兴行业尚需发展时间的情况下，这些都让FPGA成了优选