马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
半导体行业的新市场从消费电子转向了AI相关的高性能计算,而这一转变也改变了原有追求良率的设计方法,而转向了追求性能。而Chiplet则有可能解决性能和良率之间的矛盾,成为下一代设计的主流并开启新的设计方法论。
最近,几款用在云端的AI芯片引起了我们的注意。这些芯片有一个特点,就是面积巨大且集成了海量片上内存。举例来说:[li]Graphcore的IPU,每块芯片上集成了300MB的片上内存和海量异步核[/li][li]Cerabras的WSE芯片,号称集成了18GB的片上内存,芯片面积高达46225mm2[/li]
看到这些芯片,我们第一个疑问就是:芯片面积做这么大,是不考虑良率了吗?因为说到芯片行业,几乎所有的人都会和你说,出货量等于金钱,良率等于生命。然而,历史的辩证法告诉我们,没有一成不变的规律,规律也会随着时间而以正题-反题-合题的规律变换。
良率成为芯片行业之前的主旋律
追求良率可以说是之前半导体行业发展的“正题”。为什么良率是芯片行业之前的主旋律?简而言之,因为之前芯片行业的主要市场离消费者很近,大多数芯片经过系统集成厂商(例如手机行业的手机厂商,智能家电行业的小米,等等)一道中间环节就到了消费者手中。
由于芯片离消费者很近,因此最终电子产品的成本很大程度上是由BOM中的芯片成本决定的。我们知道,总的收入等于售价乘以出货量,而消费者市场是一个对于价格非常敏感的市场,换句话说,一旦销售价格上升,销量就会快速下降。因此,合理的决策是尽可能低地降低成本和售价以提升出货量。此外,由于芯片设计制造成本中的一次性NRE占了很大比例,因此走量摊薄这些一次性成本也是理性的选择。这也是之前芯片行业一直“走量”的原因。
回顾过去30年来芯片行业的主要驱动产品,可以发现几乎都是离消费者很近。1990年代的PC,2000年代的个人通信,2010年代的智能手机,无不是主打消费者市场。整个半导体行业的闭环基本都是“推出一代新产品——开拓市场获取更多用户——用户多了,出货量更大,出货价可以做到更低——用户更多”。在这样的语境下,在性能和成本的抉择中一定会更倾向于成本,而良率则直接决定了成本,这也是为什么之前良率受到如此重视的原因。
时代变了:云端AI芯片改变了游戏规则,性能比良率更重要
其实,与其说是云端AI改变了游戏规则,不如说是半导体行业最热门的市场方向由消费电子市场转向了高性能计算市场。事实上,即使在之前的30年中,良率也并非是所有芯片厂商的追求。例如,IBM给自家服务器用的高端处理器就是在良率和性能之间选择了性能——江湖传闻IBM的高端处理器的sign-off只需要过TT corner,只是这样的选择在以消费电子为主导的半导体行业并非主流——因此我们可以说追求性能而非良率是半导体行业发展的一个“反题”。
是什么给了IBM这样任性不顾良率的胆量?其实如果能回答这个问题,也就能明白Cerabras和Graphcore大芯片设计背后的哲学了。我们认为,这个问题背后的答案就是,高性能计算市场是一个对性能的敏感度高于价格的市场。首先,高性能计算市场的主要客户并非消费者而是行业客户,而这些客户对于成本本来就不敏感。其次,这些客户最关心的是性能。云端AI芯片的客户主要是谷歌这样的互联网巨头,在这些巨头眼里,算力就是像电力一样的资源,它们对于算力的追求几乎是永无止境,这一点和信奉“够用就好”的消费电子市场完全不同。举个例子,对于普通消费者来说,如果在今天有两款选择,一个是iPhone XR,另一个是性能和价格都是前者10倍的iPhoneXXR,估计大多数消费者会选择iPhone XR,首先因为性能太好没用,其次太贵买不起。但是如果你问谷歌你是愿意买性能100TOPS,售价一万刀的Nvidia GPU,还是愿意买性能1000TOPS,售价十万刀的Cerabras,谷歌很可能会选择后者——因为同样的价钱买十块Nvidia GPU没法做到十倍算力性能,因此总得来说还是合算的。最后,行业市场的总容量远小于消费电子市场,因此不存在降价以开拓更多市场的说法。
再回到Cerabras和Graphcore,为什么大芯片能带来性能提升?简而言之,还是因为芯片之间的通信对于性能影响太高,以及片外内存访问太贵。因此,为了解决芯片间通信的开销问题,两家公司都选择在一块芯片上集成海量的计算核,以尽量把核之间的通信保持在片上;为了解决片外内存访问问题,两家公司又不约而同地在芯片上集成了大量内存。这样一来,通过把尽可能多的模组集成在一块芯片上,片外通信/内存访问的频率就可以大大降低,从而提升性能。当然,付出的代价就是良率。
Chiplet或许能成为兼顾性能和良率的解决方案
Graphcore和Cerabras这种巨舰大炮式的芯片设计确实有其合理之处,但是如果有技术能同时满足性能和良率,那么这种偏激的放弃良率的方案就会成为历史。我们认为,Chiplet方案就有可能解决性能和良率之间的矛盾,成为半导体发展规律的“合题”。
如前所述,如果想要提升性能就必须减少片外通信,而如果想提升良率则必须保证单一芯片面积不能太大。Chiplet方案恰恰能同时兼顾这两点。Chiplet的核心思想是把单一芯片面积做小(从而确保良率)成为chiplet,同时把不同的chiplet用高级封装技术集成到一起,这样一来芯片之间的通信并不需要走PCB板,而可以走封装内通信,这样一来就大大降低了片外通信的开销。从提升良率的角度,Intel和AMD在最新的处理器上都不约而同地选择了chiplet方案,我们认为AI芯片走向chiplet也将会是未来的趋势。 |