马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
一个数据中心是由多个服务器机柜链接在一起组装而成的,一个服务器机柜又由多个GPU、CPU、内存条和电源集成在一起所组成,而GPU、CPU、内存条和电源是一个服务器机柜的主要热源,冷板式液冷就是把液冷板分别覆盖到GPU、CPU、内存条上,利用高速流动液体把热量导出,从而避免芯片的热失效,保障芯片的正常工作。 如图可以看出高算力服务器里面的液冷板一般是铜材通过机加工、蚀刻、焊接等工艺制成,液冷板内部也做很多微通道的结构,微通道的通道宽度在0.1-1mm之间,换热系数提升3-5倍,但缺点是但容易堵塞,因为液冷板中要长期通入冷却工质(一般是水+乙二醇),内部长期通入冷却工质有可能会造成腐蚀、微生物生成等问题,而微通道的通道宽度很窄,容易造成堵塞。从图中也能看到还有红色和蓝色两张标记,蓝色是进入液冷板的冷水端,红色是出去液冷板的热水端,通过这样周而复始的水循环,把芯片释放的热量导出去。
液冷板分为单相液冷和双相液冷,所谓的相就是物质的形态。单相就是液冷板中的冷却工质一直保持液体状态流动,通过液冷的高速流动把热量带走,是对流传热的一种;双相就是液冷板中的冷却工质在散热过程中会从液体变化到气体,再从气体冷凝到液体,通过液体气化吸热的物理原理将热量更高效的传出去。单相液冷适用于单卡功率低于1200W(或者热流密度低于180W/平方厘米),单卡大于1200W功耗的机柜需要使用双相液冷板,否则热量无法及时散出影响GPU性能。 目前液冷板散热主要以单相为主,单相液冷板的技术更加成熟,而且结构比双相的要简单,造价也比双相液冷板要低很多,但是随着AI算力芯片的功耗不断提高,单相液冷板热管理解决方案比较吃力了,未来大概率会升级到双相(双相液冷系统每KW售价是单相的3~4倍)。
举个例子,英伟达GB200 NVL72,一个机柜共18个节点(trays),每个节点配2个Grace CPU和4个 Blackwell GPU,单个Blackwell GPU由两个GPU封装连接到一起,且配备8条24G的HBM3E内存条(合计192GB内存)。 GB200 GPU功耗1000W,CPU功耗700W,那么一个节点的功耗至少是(2*1000+700)*2=5400W,一个服务器18个节点,单个 NVL72服务器功耗至少是97.2KW。加上电源、存储等,单个NVL72服务器功耗大约120KW。(GB200单卡功耗已经逼近1200W,A100到H100增加300W,H100到B100增加300W,后续英伟达直接跳层出1500W功耗的卡,届时双相液冷成为刚需) 而就小编目前得到小道消息,英伟达GB200 NVL72由于散热问题,其实整体算力可能只能到达目标算力的85%;而前段时间台北电脑展上黄教主发布的GB300,其散热问题也并没有完全解决,算力可能只能达到目标算力的70%,目前官宣今年第三季度就要开始批量交付GB300,黄老板应该还是有很大压力的。这说明很大一部分算力因为散热问题而浪费了,所以高算力芯片的散热解决方案是非常的迫在眉睫。(消息仅供参考) 冷板式液冷系统的成本分为一次侧和二次侧,以CDU(冷却分发单元)为界。一次侧主要大量的室外冷却设备,包括换热器、冷却塔、水泵等一次侧水处理系统,一次侧成本大概占比是在整个系统里面30%左右,大约1000人民币每千瓦;二次侧主要包括CDU(占25%)、流体连接器(占25%~30%)、管路+阀门+传感器(占15%~20%),二次侧成本占整个系统的70%左右。 目前GB300的液冷板系统供应商主要是:讯强电子(Cooler Master)、奇宏(AVC)、台达(Delta)、双鸿(Auras)。
当然我们国内目前也有很多液冷板系统代表性厂家,如:英维克、高澜股份、申菱环境、飞荣达、中石科技、精研科技、大图热控、易新能科技等。 随着算力服务器的不断升级,芯片的能量密度越来越高,伴随着产生的热量也越来越大,液冷技术已经成为主流的热管理方案。而就目前市场的散热功耗需求而言冷板式液冷是液冷技术的主流方案,由于其改造成本低、散热效果好、易操作、兼容性好、可靠性强等优势,占据市场主导地位。 而未来高算力芯片的散热功耗超过了冷板式液冷的散热能力极限后,浸没式液冷、喷淋式液冷将会成为新主角。
|