[IT/数码] 未来芯片“热”不可挡:散热技术面临的严峻挑战与应对之道

[复制链接]
查看11 | 回复0 | 7 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×


未来芯片“热”不可挡:散热技术面临的严峻挑战与应对之道


随着芯片制造技术的飞速发展,更高的性能也带来了前所未有的散热难题。本文基于 IEEE Spectrum 的文章,深入探讨了未来芯片发热量剧增的原因、现有散热技术的局限性,以及业界正在探索的前沿解决方案,特别是背面供电等创新技术带来的机遇与挑战。

01273418758230.png

五十多年来,在摩尔定律近乎铁律的驱动下,工程师们大约每两年就能将同一面积内容纳的晶体管数量翻一番。然而,在业界不懈追求逻辑密度的同时,一个不受欢迎的副作用日益凸显:那就是热量。

对于如今的CPU、GPU等片上系统(SoC)而言,温度直接影响其性能、功耗和能效。长期过热不仅会减慢处理器内关键信号的传播速度,甚至可能导致芯片性能的永久性退化。同时,高温还会加剧晶体管的漏电流,造成电力浪费。反过来,增加的功耗又会削弱芯片的能效,使得完成相同任务需要消耗更多能量。

问题的根源在于另一项定律——“登纳德缩放定律”(Dennard Scaling)的终结。该定律指出,随着晶体管线性尺寸的缩小,其工作电压也应相应降低,从而使单位面积的总功耗保持恒定。然而,大约在2005年前后,登纳德缩放定律失效了,因为电压已无法在不牺牲晶体管基本功能的前提下进一步降低。结果就是,虽然逻辑电路密度持续增长,但功率密度也随之飙升,产生了大量的废热。

随着芯片变得越来越小巧、越来越强大,高效散热对于维持其性能和寿命至关重要。为了确保散热效率,需要一种工具,能够预测新的半导体技术——包括制造晶体管、互连线和逻辑单元的工艺——将如何改变热量的产生和散发方式。欧洲微电子研究中心(Imec)的研究人员已经开发出这样一套工具。 其仿真框架整合了行业标准的和开源的电子设计自动化(EDA)工具,并辅以其自研的工具集,用以快速探索半导体技术与其构建的系统之间的热交互作用。

迄今为止的研究结果不容忽视:热挑战随着每一个新工艺节点的演进而日益严峻。迫切需要新的解决方案,包括全新的芯片和系统设计方法,才能让未来的芯片有效应对高热。


01
传统散热方式的极限

传统上,SoC通过安装在芯片封装上的散热器,并利用风扇吹风来冷却。一些数据中心已经开始采用液体冷却(液冷),因为液体比气体能吸收更多热量。液冷剂(通常是水或水基混合物)对于最新一代高性能芯片,例如英伟达据称功耗高达惊人的1000瓦的新型AI GPU,可能尚能应付。但无论是风冷还是常规液冷,都难以应对即将投入生产的更先进制程节点技术。

0127340cf2fa38.png
图注: 热量从芯片移除的路径复杂,但高达95%的热量最终通过散热器散发。 (来源: Imec)

以即将到来的纳米片晶体管(Nanosheet Transistors)和互补场效应晶体管(CFETs)为例。领先的芯片制造商已在转向纳米片器件,它用水平堆叠的半导体薄片取代了当今FinFET中的鳍状结构。CFET则将这种架构推向极致,垂直堆叠更多纳米片并将其分为两个器件,从而在大致相同的占地面积内放置两个晶体管。专家预计半导体行业将在2030年代引入CFETs。

相关研究考察了即将推出的A10节点(指10埃,即1纳米节点)的纳米片技术,以及Imec预计在A10之后两代出现的A5节点的CFET技术。测试设计的仿真结果显示,A5节点的功率密度比A10节点高出12%至15%。这种功率密度的增加,在相同工作电压下,预计将导致温度升高9°C。

012735b11825ad.png
图注: CFET将纳米片晶体管堆叠起来,提高了密度和温度。为了在与纳米片晶体管(A10节点)相同的温度下工作,CFET(A5节点)将不得不降低运行电压。(来源: Imec)

9°C听起来似乎不多。但在数据中心环境中,成千上万甚至数百万颗芯片密集地封装在一起,这9°C可能就是稳定运行与“热失控”(Thermal Runaway)之间的分界线。热失控是一种可怕的正反馈循环:温度升高导致漏电功耗增加,漏电增加进一步推高温度,如此循环往复,最终必须启动安全机制关闭硬件,以避免永久性损坏。

研究人员正在探索比基础液冷和风冷更先进的替代方案,以期缓解这种极端高温。例如,微流控冷却(Microfluidic Cooling),在芯片内部蚀刻微小通道,让冷却液在器件内部循环。其他方法包括喷射冲击冷却(Jet Impingement),即高速将气体或液体喷射到芯片表面;以及浸没式冷却(Immersion Cooling),将整个印刷电路板浸入冷却液中。

但即使这些新技术得以应用,单纯依靠散热器来解决额外的热量可能并不现实。对于移动设备而言尤其如此,它们受到尺寸、重量、电池续航以及不能“烫伤”用户的限制。而数据中心则面临不同的制约:冷却系统是整个建筑的基础设施开销,每次新芯片问世都去升级冷却系统,成本过高且极具颠覆性。


02
性能与热量的权衡:
系统级解决方案

幸运的是,散热技术并非抑制芯片“发烧”的唯一途径。多种系统级解决方案可以通过动态适应变化的热工况来控制热量。

一种方法是在芯片周围布置温度传感器。当传感器检测到温度异常升高时,它们会发出信号,降低工作电压和频率(降压降频),从而降低功耗,以对抗发热。然而,这种方案虽然解决了散热问题,却可能显著影响芯片性能。例如,在炎热环境下,芯片性能可能会一直不佳——任何曾在阳光下暴晒过智能手机的人对此都深有体会。

“热冲刺”(Thermal Sprinting),对多核数据中心CPU尤其有用。其做法是让一个核心全速运行直至过热,然后将运算任务切换到第二个核心,同时让第一个核心冷却。这个过程能最大化单线程性能,但对于需要在多个核心间迁移的长任务,可能会引入延迟。“热冲刺”还会降低芯片的整体吞吐量,因为总有一部分核心处于冷却禁用状态。

因此,系统级解决方案需要在散热和性能之间进行精妙的平衡。为了有效应用这些方案,SoC设计者必须全面理解芯片上的功率分布和热点(Hot Spot)位置,明确传感器应放置在何处、何时触发降压降频,以及芯片各部分冷却所需的时间。然而,即便是最优秀的设计师,也很快需要更具创造性的热管理方法。


03
利用芯片的“背面”:
新机遇与潜在挑战

一个极具前景的研究方向是在晶圆的背面(Backside)增加新功能。这一策略主要旨在改善供电效率和计算性能,但它或许也能帮助解决一些散热问题。

012735fb40d0fb.png

图注: 新技术可以降低为多核处理器供电所需的电压,使芯片能在可接受频率下维持最低电压。背面供电网络(BSPDN)通过降低电阻实现这一点。背面电容器(Backside Capacitors)减少瞬态电压损失。背面集成稳压器(Backside IVRs)允许不同核心按需在不同的最低电压下运行。(来源: Imec)

背面供电网络(BSPDN, Backside Power Delivery Network):
顾名思义,就是将供电线路从芯片正面移到背面。所有先进的CMOS代工厂都计划在2026年底前提供BSPDN。早期演示表明,BSPDN通过将电源更靠近晶体管,显著降低了电阻。电阻减小意味着电压损耗降低,芯片可以在更低的输入电压下运行。电压降低,功率密度随之下降,温度自然也降低了。

背面电容器(Backside Capacitors):
在BSPDN之后,制造商可能会开始在背面增加高储能密度的电容器。由印刷电路板和芯片封装中的电感引起的剧烈电压波动,对高性能SoC尤其麻烦。背面电容器因其更靠近晶体管,能更快速地吸收电压尖峰和波动,从而有助于解决此问题。这将使芯片能够比仅使用BSPDN时在更低的电压(和温度)下运行。

背面集成稳压器(Backside IVRs, Integrated Voltage Regulators):
这项技术旨在通过更精细的电压调控,进一步降低芯片的电压需求。例如,智能手机SoC通常有8个或更多计算核心,但芯片上没有足够空间为每个核心配备独立的离散稳压器。通常是一个片外稳压器管理四个核心的电压,无论这四个核心是否面临相同的计算负载。而IVRs可以通过专用电路独立管理每个核心,从而提高能效。将IVRs置于背面还能节省宝贵的正面空间。

然而,背面技术将如何影响热管理,目前尚不完全清楚;需要通过实际演示和仿真来描绘其效果。增加新技术通常会提高局部功率密度,芯片设计者必须考虑其热效应。例如,在放置背面IVR时,是均匀分布更好,还是集中在特定区域(如每个核心和缓存的中心)更有利于散热?

最近,Imec的研究表明, 背面供电技术在解决旧问题的同时,可能会引入新的热问题。原因在于创建BSPDN时留下的硅衬底(Silicon Substrate)层变得极薄。在传统的正面设计中,硅衬底可厚达750微米。由于硅具有良好的导热性,这层相对较厚的硅有助于通过横向散热来控制热点。然而,增加背面技术需要将衬底减薄至约1微米,以便从背面接触晶体管。这层夹在两层金属和绝缘层之间的纤薄硅片,无法再有效地将热量向侧面传导。结果是,来自高活动度晶体管的热量可能被局部困住,并被迫向上朝着散热器方向集中,从而加剧了热点问题。
0127356418e3f9.png
图注: 通过改变散热路径中的材料,背面供电技术可能使芯片上的热点更加集中和炽热。(来源: Imec)

对一个80核服务器SoC的仿真发现, BSPDN可能使热点温度升高多达14°C。虽然可以通过设计和技术的调整——例如增加背面金属的密度——来改善情况,但仍需要更多的缓解策略来完全避免这个问题。


04
迎接“CMOS 2.0”时代

BSPDN是Imec称之为“CMOS 2.0”的新型硅逻辑技术范式的一部分。这个新兴时代还将见证先进的晶体管架构和专门化的逻辑层。这些技术的主要目的是优化芯片性能和能效,但它们也可能带来热学上的优势,包括改善散热。

在当今的CMOS芯片中,单个晶体管驱动信号到近处和远处的组件,导致效率低下。但如果设有两个驱动层呢?一层处理长距离连线,并用专门优化的晶体管缓冲这些连接;另一层只处理10微米以下的连接。由于第二层中的晶体管针对短连接进行了优化,它们可以在更低的电压下工作,这同样会降低功率密度。不过,具体能降低多少仍是未知数。

01273549844577.png

图注: 未来,芯片的不同部分可能在各自独立的晶圆上,使用最适合的工艺技术制造,然后通过3D堆叠形成功能更强的SoC。但工程师必须仔细考虑热量如何在这些新的3D结构中流动。(来源: Imec)

显而易见的是,解决行业面临的散热问题将是一项跨学科的共同努力。单一技术——无论是热界面材料、晶体管设计、系统控制策略、封装还是散热器本身——都不太可能独自解决未来芯片的散热难题。需要综合运用所有这些方法。 借助先进的仿真工具和分析,可以开始理解每种方法应应用的程度和时间规划。尽管CMOS 2.0技术(特别是背面功能化和专门化逻辑层)的热优势看起来很有希望,但这些早期预测需要得到验证,并仔细研究其潜在影响。例如,对于背面技术,需要精确了解它们如何改变热量的产生和散发——以及这是否会弊大于利。

芯片设计者可能会倾向于先采用新技术,并寄希望于后续通过软件来处理无法预料的热问题。这在一定程度上或许可行,但过度依赖软件解决方案将对芯片性能产生不利影响,因为这些解决方案本质上是不精确的。例如,修复单个热点可能需要降低一个更大区域的性能,而该区域的其他部分并未过热。因此,将SoC设计与用于构建它们的半导体技术进行协同设计(Co-design)至关重要。

好消息是,越来越多的EDA产品正在增加先进的热分析功能,甚至在芯片设计的早期阶段就提供支持。专家们也在呼吁采用一种名为“系统技术协同优化”(STCO, System Technology Co-optimization)的新型芯片开发方法。STCO旨在打破系统、物理设计和工艺技术之间僵化的抽象界限,将它们作为一个整体来通盘考虑。这要求各个领域的资深专家走出自己的舒适区,与其他芯片工程领域的专家紧密合作。研究人员或许尚未确切知晓如何解决行业日益严峻的热挑战,但他们乐观地相信,凭借正确的工具和广泛的协作,这个问题一定能够得到解决。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则