马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
本帖最后由 hdy 于 2025-5-29 01:10 编辑
摘要:在电子冷却应用中,液体冷却被认为比空气冷却提供更佳的冷却能力。 本文探讨了液体冷却系统的设计方法,并比较了压力匹配液体冷却系统和满足流量要求的液体冷却网络的热分析。文中提出了基本的控制方程,并提供了应用示例,以说 明热工程师需要评估的选择。本文旨在描述流体入口温度、所需液体流量和液体冷却回路设计之间的关系,以便成功地冷却电子设备系统,使其达到其温度极限。此外,本研究还强调了在大型系统中正确设计液体冷却网络的共同压力工作点时需要考虑的因素。
1. 讨论 GPU中心的人工智能集群时代已经到来,这得益于高 TDP芯片和并行化的工作负载,这些工作负载分布在密集 配置的机架中,安装了超过100个kW的GPU,并通过液冷系 统进行冷却。高性能芯片通常通过切口微通道冷板有效散 热[1,2,3,4,5]。液体通过盲配快速断开连接供应给服务 器,并由CDU [6]泵送。如今,这些大型GPU集群得到了大量支持基础设施的支 持,如存储/管理服务器、PDU、 电源和电池。随着液冷技 术的大规模采用,行业将寻求为这些支持基础设施提供液 冷解决方案。提高冷却效率并减少因冷却而产生的能耗。这种支持基础 设施将安装在异构机架中,多个来自不同供应商的系统会 安装在同一机架内。流体通过机架歧管并行供应, 内部的 液体冷却回路必须设计得与其他回路协调工作, 以免干扰 机架内其他系统的液体冷却能力,并保持冷却液的有效利 用。
1.1. 异构机架的讨论在并行设置异构服务器的共同压力需要平衡液体冷却 网络中的多个液压阻抗。
图1:概念性液体冷却架,不同液体冷却服务器托盘并 联连接到由单个供应/回流软管供料的机架歧管。
如图1所示, 由两种或多种不同类型的液体冷却服务器 托盘组成的完整液体冷却机架将有不同的流量要求。理想 情况下,它们应设计为在共同的压力下运行, 以避免不必 要的液体流量溢出,超出冷却组件所需的必要量。同样, 这种情况会给数据中心的液体冷却基础设施带来不必要的 负担。机架内的热负荷定义了流量分配。行业普遍接受的值 是每千瓦1.5 L/min。压力和流量是受限资源,受CDU规格 和设施基础设施如管道及控制阀压降的限制。图2和图3展 示了冷却网络中典型的组件,这些组件在机架级别产生压 力损失。
图2:异质液体冷却机架,前视图
图3:异质液体冷却机架,背面视图
2. 组件级和机架级液体冷却应用液冷回路通常串联或并联冷却多个组件。冷却回路的设计方式在机架级别上对冷却回路与其他回路的交互方式 起着重要作用。液冷机架的冷却液通过机架歧管供应和回流,这些歧 管设计用于支持预期流量阻抗的服务器。这种阻抗预期通 常被称为压力预算或机架压降。机架内的系统必须设计得 当,确保在流量阻抗与机架压力预算相匹配时能够正常运 行。机架内的所有系统并行接收冷却液,且进水口和出水 口的压力相同。冷却回路的阻抗取决于其设计,尤其是当它包含多个 冷板时,设计者可以选择串联或并联流。与机架级阻抗匹 配原理类似,为了优化液冷回路的性能和效率,需要对多 个并联的冷板进行阻抗匹配。通过平衡不同组件的阻抗,冷却回路,设计者可以确保冷却液以预期的比例流动,从 而有效地从所有关键区域去除热量。为了说明基本控制方程,对串联和并联的两个冷板进 行了评估,包括软管、QD和歧管压力损失。2.1. 服务器中的串行与并行为了说明基本控制方程,如图4所示,对串联和并联的 两个冷板进行评估,包括软管、快速断开(QD)和歧管压 力损失。
图4:托盘内部液体冷却组件。流体通过UQD和歧管供应/返回 。a)GPU和CPU串联 。b)两个GPU并联,一个 CPU与GPU串联2.1.1.系列与并联流量阻抗的物理原理液体冷却系统中的压力损失既可以用线性项也可以用 二次项来描述,这是由于系统内存在层流和湍流。在层流 中 ,压力降与速度呈线性关系 , 由哈根-泊肃叶方程描 述。对于湍流,这种关系则由达西-魏斯巴赫方程描述。 流量Q与压降ΔP之间的关系可以使用常数系数a和b的线性 项和二次项来概括,如公式等式1所示。 图5显示了与图1类似的电阻网络,其中1和b1代表冷板 1的系数,a2和b2代表冷板2的系数。
图5:具有系数的类似冷板电阻网络
为了计算串联或并联的等效电阻,需在两种流量条 件下应用压力平衡方程和质量守恒方程。两个串联的 液体冷却电阻较为简单,其解决方案是将对应线性和 二次项中的系数相加。串联中的等效流速阻力:
对于并联等效电阻,利用质量守恒和压力平衡的基本 原理推导出一个封闭形式的解。并联流动的等效单个阻力 系数如公式(4-5)所示。并联时的等效流量阻力:
2.1.2.对建筑的影响
选择串联或并联配置取决于系统的具体需求和限制。 并联冷却网络的一个明显优势是无需考虑热负荷预热,而 串联网络则不同,下游组件会从上游组件获得全部液体冷 却预热。图6展示了两个三电阻系统,一个串联,一个并联,它 们之间存在恒定的压力降。为了简化分析,我们仅关注Q 与 ΔP关系中的二次系数。 电阻[color=rgb(87, 107, 149) !important][url=]#1和b0代表了液体冷却网[/url] 络(如QD、软管、收缩等) 中的水力阻力。,阻力[color=rgb(87, 107, 149) !important][url=]#2[/url] / # 3和b1代表两个相同的冷板的水力阻力,就像服务器配置 中有两个gpu一样。
图6:冷板装配
评估这些系统的两种极端条件有助于识别给定 ΔP 下的Q趋势。在表1的案例(I)中,当b0≪ b1时,该配置的网 络电阻最低,并且在给定ΔP下,单个冷板的流量比Qp≪ Qs 最高。案例(I)中计算Qs和Qp的方程分别见公式(8-9)。
因此,与等效串联网络相比,平行网络中每个冷板的 流量高1.4倍 。这种情形的一个例子是使用大QD向细螺 距、切削微通道冷板供应流体。相比之下,情况(II) 中b1≪ b0。一个例子是使用小量 子点向嵌入式管状冷板供应流体。这种情况下,在给定的 ΔP下,冷板的流量比最低,且与等效串联网络相比,流 量仅为0.5倍。表1显示,对于给定的 ΔP,平行冷板的较 低水力阻力的影响可能导致每个冷板的流量比串联流量更 大,尽管总流量分为两条路径,如案例(1)所示。在其他情况下,如案例(II)和(III),将冷板并联会 导致相对于串联流的流量降低。这意味着组件的阻力大小 与其组成成分及其在液压阻力网络中的位置有关。
表1:不同阻力系数下的串联和并联流量比
2.1.3.进水温度和流量要求冷板的流量要求取决于多个因素,包括冷板设计、涉 及的热或流体动力学、热源以及流体的入口温度。对于给 定的冷板设计,入口温度与所需流量之间的关系如等式所 示。(11) 如图8所示,该结果来源于热阻与...的关系。冷板 的流量曲线 ,其形式如等式(10)所示 ,并在图7中给 出。系数α 、 β 、 γ 已确定。通过拟合模拟或实验数据。为了物理地关联热导率特性与 βo, γ来自冷板的强制对流特性。
图7:通用热阻曲线 图8:入口温度和流量冷却要求。没有上游组件预热的情况下,Tinlet被定义为进入系 统的流体。对于位于其他冷板下游的冷板,流体会被预 热。给定预热功率Ppreheat下,第一个冷板与第二个冷板 串联时,流体的预热量在公式等式(9)中估算,并使用公 式等式(10)计算下游冷板所需的流量。
现在,我们已经建立了液体冷却系统的液压和热分析 工具,我们展示了一个应用示例, 以突出一些有趣的发 现。
3. 应用示例
讨论了两个独立的实例。第一个实例强调了冷板性能、流 体网络布置以及流体网络内组件的液压阻力如何影响实现 可行解决方案的结果。在第二个例子中,研究了一个更接近现实世界的GPU驱 动系统, 以揭示定义多组件系统允许入口温度范围内所需 流量的细微差别。在并流场景下,这导致了两个独立的函 数来驱动流量需求,每个函数仅适用于总温度范围的一部 分。3.1. 搜索可行的解决方案空间考虑两个1400瓦GPU的冷却问题。在保持压力预算恒定 ( Δp = 69千帕) 的情况下,研究了两种情况。在比较串 联与并联布置时,第一种情况下,QD/软管/歧管和冷板的 液压阻抗相同;而在第二种情况下,QD/软管/歧管的液压 阻抗是冷板的两倍。此外,为了讨论的目的,这两种情况 下的冷板热性能略有不同。1) 假设冷板具有流量要求T=50, βo = 82,Y = 1, QD/软管/歧管阻力系数b0 = 1,冷板阻力系数b 1 = 1。 比较串 联与并联网络布置,入口冷却流体温度为45℃ , 预热功率1400W。
表2:串联和并联流量热结果 2) 假设冷板热性能和流量所需的东西 T=50, βo = 90,Y = 1,QD/软管/歧管的流量阻力b0为2,冷板阻力b1为 1。对比串联与并联连接方式,入口冷却流体温度 设定为45℃ , 预热功率为1400W。
表3:串联和并联流量热结果 两种情况都会产生较高的冷板流量,当它们串联时尤 为常见。然而, 由于上游冷板的预热,情况1无法满足有 效冷却组件所需的流量。相反, 由于冷板性能差异以及软 管和量子点电阻增加,情况2在并联网络配置中也无法达 到所需流量。
3.2. 冷板常见压降对于本研究,考虑了一个由GPU和CPU组成的双芯片模 块,如图9所示。GPU和CPU的TDP分别为2.5 kW和0.8 kW。 在此场景中,假设GPU冷板是行业内的最先进水平,并且 其热性能在制造限制内达到最大化。因此,在研究串联与 并联排列时,两种情况下的GPU冷板相同,而CPU冷板则针 对每种配置进行了优化:在串联模式下,CPU冷板相对于 GPU冷板优化了共同的流量;而在并联模式下,则优化了 相对于GPU冷板的共同压降。
图9:优化a)串联和b)并联的压力在两种情况 下 , 假 设 总模块压 力预算 为 14 kPa(2 psi)。对于串联配置,GPU首先冷却。图10中以实线蓝色 表示该冷板的流量需求。CPU冷板设计旨在最小化冷板压 降,尽可能接近GPU的流量需求,同时考虑预热。 1) GPU冷却:Tinlet=51.4-24QGPU一1.22) CPU冷却:Tinlet=58-32QGPU一1.2
图10:系列冷板性能优化
1) GPU冷却:Tinlet = 51.4—24QGPU一1.22) CPU冷却:Tinlet = 57—12QGPU一1.2
图11:平行冷板压力匹配 图12:并联冷板入口温度与压力的关系。
对于这两种情况,存在一个入口温度范围,在此范 围内,流量需求由该模块上的两个组件定义。在串联情况 下,流量由GPU驱动,在32-45℃范围内,然后有一个交叉 点,CPU驱动所需的最小流量。这种情况同样适用于并联 流动场景,尽管后者较难发现,因为共同变量是压力而非 流量,见图12。但是,对于任何给定的操作入口温度,都 存在一个组件驱动最低所需流量(或满足该条件的最低压 力操作) 。这在网络中的组件以及由具有不同特性的不同 类型托盘组成的机架中都是相关的。
4. 结论
设计液体冷却网络时,选择串联还是并联的方式取 决于操作时需要保持相同的压强预算, 以及网络中输送冷 却液的液压阻抗(如UQD、软管、歧管等)与执行冷却的 冷板的液压阻抗之间的比例。三个系数定义了液体冷却流量需求的相关性。两个系 数定义了液体冷却网络的水力阻抗相关性。为了简化,本 文在比较液体网络拓扑时省略了水力阻抗的线性项,这在 实际冷板特性分析中是不准确的。然而,即使考虑了线性 项,文中强调的结论仍然有效。液体流量要求对应于满足服务器托盘内所有设备规 格温度所需的最小冷却流量。流量需求由一个主要组件驱 动,而液体冷却网络的流量阻抗设计为与其他并联回路平 衡,但这种平衡的流量阻抗会随着操作入口温度的变化而 变化,在此过程中,定义最低流量要求(或压力操作点) 的主要设备也会发生变化。这些发现同样适用于具有多个 冷板的冷却回路以及异构机架。
|