[零组件/半导体] 1U 2000W高密度CPU服务器:风液混合散热 & Open Rack 50V供电

[复制链接]
查看9 | 回复0 | 昨天 00:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 hdy 于 2025-5-25 00:05 编辑

新形态1U 2节点x双CPU服务器(不是传统的“双子星”),与以前的2U 4节点服务器都属于高密度CPU计算机型。那么新产品都有哪些变化和特点?体现出什么优势?
0001224b6169f4.png
具体点说,就是我在《风冷、液冷GPU服务器密度提升 - PowerEdge 17G整机架预览 (2)》中曾提到过的Dell M7725服务器(主板等加上M7701机箱),目前被放在产品线的一个新的单独类别“Multiple Nodes”里面。
00012483c2e374.png
之前一同规划在这套IR7000 OCP 21英寸机架里的,还有一款GB200 NVL72 GPU服务器,不过它的名字不叫PowerEdge XE9712了,有点变化(本文结尾处我还会提到)。
0001297ababc22.png
IRSS IR7000
戴尔的集成化机架可扩展系统(Integrated Rack Scalable Systems,IRSS)专为机架级AI和高性能计算(HPC)部署设计,可最大化空间利用率、提升能效、降低成本,并以完全预装和测试的整机柜形式交付。作为IRSS计划的一部分,IR7000系列采用21英寸ORv3(Open Rack Version 3)标准机架架构,支持高密度计算和液冷散热,适用于高TDP(热设计功耗)的GPU和CPU。
PowerEdge M7725
戴尔PowerEdge M7725是一款高性能高密度计算服务器,适用于科研、政府、金融科技和高等教育等领域。该服务器专为IR7000机架设计,采用1OU(1个机架单元)封装,内部集成2个双路(2S)服务器节点。在单机柜内可部署64或72个双路节点,搭载第五代AMD EPYC处理器,提供24,000至27,000个计算核心,并通过前置I/O插槽实现高速连接,满足高性能应用的带宽需求。其能效优化设计结合了CPU直接液冷(DLC)和机架集成式风冷(快速连接),支持更可持续的部署。配合IR7000机架,M7725可利用戴尔独有的后门热量捕获技术,实现近乎100%的热量回收(室温中性)。
PowerEdge IR7000 Open Rack Ver.3机架
在介绍服务器之前,我想先顺带给大家看一些Open Rack机架的介绍。
00013325946ba5.png
- 机架规格
采用Open Rack Version 3(ORv3)标准,44 OU(机架单元)高度,兼容PowerEdge M7725服务器部署。
- 直接液冷(DLC)歧管
戴尔定制设计的21英寸 UQDB06 盲插式液冷歧管,基于盲插(blind-mate)技术实现快速连接。
- 电源母线(Busbar
符合ORv3 标准,支持1400A 电流的高功率配电。
- 电源柜(Powershelf
ORv3 33 kW高密度供电模块,为机架提供高效电力分配。
- 行间冷却分配单元(CDU)示例
·MCDU-50(Motivair 品牌)
·Vertiv CDU 1350
- 管理交换机示例
戴尔 S5248 10/25GbE 高速管理交换机。
- 网络交换架构
支持戴尔以太网交换机或NVIDIA InfiniBand高速互联方案。
- 液冷歧管与电源母线集成
DLC 歧管与电源母线(Busbar)预组装交付,确保快速部署与可靠连接。
000139976e38a2.png
IR7000机架满配的后视图(大家可以留意下中间从上到下贯穿的供电“铜排”,以及靠下位置的2根液冷接入管道)
000140db7ef6da.png
Dell推荐了以上2个型号的CDU换热器
000142a882d0b4.png
冷板式液冷服务器的快速连接——盲插接头(UQD cap)
000152b3cd51be.png
Power shelf(配电柜,多个)将交流电源输入,转换为每个M7725服务器节点提供的51V(50V)直流供电。在1U单元内包含6个5500W电源模块,达到33kW的输出。
00015832ff8eab.png
Powershelf的尺寸,以及输出到供电铜排的连接点(夹具)
机柜部分我先简单聊到这里,班门弄斧了。下面回到服务器的主题上。
PowerEdge M7725 (+M7701)服务器
00020144548e22.png
在1 OU(21英寸)宽度的M7701机箱中,容纳2个M7725节点,每个M7725支持2颗AMD EPYC 9005处理器,最高可配满血的128 Zen5核心或者192 Zen5c核心的CPU。
两种前面板/IO布局
000206ebfc4a44.png
PowerEdge M7725可选2种前面板布局,上面是每节点2个全高PCIe扩展卡的——这种是不支持热插拔SSD的——可以使用内置的BOSS卡。
整个前面板的开孔比例还是蛮大的,这样有利于吸入气流。我们可以清楚地看到2个节点的DC-SCM管理模块,与OCP 3网卡模块的位置。
0002093f22327a.png
上图是另一种每节点2个半高PCIe扩展卡的布局——这样就留出了2个(双节点一共4个)E3.S NVMe SSD盘位。
保留的风扇散热
000211c5465dec.png
M7725的后视图有点“个性”吧。正中间是连接铜排/夹子式的集中供电(低压/直流),有这个就不要传统的交流电源线插孔了;左右两边是液冷管接口(一进一出);然后服务器机箱里还有40mm的风扇。
000215b5742161.png
按照今天流行的服务器前I/O维护,上图排放的方向就是从下面进风,先经过I/O板卡和盘,然后是主板。最主要的热源——4颗最高500W的CPU有专门的冷板来散热,但每节点M7725尾部还是保留了4组4056的风扇,用于内存、板卡等散热。不过按我的理解,这些风扇的转速要求应该比传统风冷服务器低多了,也算绿色PUE啥的吧。
DC-SCM:完整的BMC硬件
0002225aa790f5.png
服务器的硬件管理,PowerEdge M7725采用了DC-SCM规范的模块,上面运行的BMC软件是Dell iDRAC10。以前有些Dell机型仍然把BMC的主控留在服务器主板上,这一次我看到除了FPGA(CPLD)之外,另一个更大的BGA芯片也做在DC-SCM模块上了。Dell之前的iDRAC主控一般是来自Nuvoton,好像没怎么见过Aspeed芯片。
PDB:DC 50V to 12V电源转换板
000229da3bed0e.png
由于是机架集中提供51/50V直流供电,服务器里不再需要传统的交流Power Supply,改成上面这块PDB板,实现DC-DC转换为12V给主板、CPU等供电。
000237f3c1a8fe.png
PDB电源分配板在机箱中的位置,就在供电夹与主板之间。距离风扇比较近,所以上面的散热片很容易被照顾到。
00024266f45823.png
由于PowerEdge M7725正式发布的时间,比之前的几款Dell 17G AMD服务器晚一些,所以文档从一开始就写支持DDR5 6400 MT/s内存了,也不用考虑升级BIOS啥的。
000244b8325145.png
表面上M7725是一款有特色的液冷服务器,但其结构反而似乎更简单?一方面是1U机型选件没有那么多吧;另一方面,比如上图中这个EDSFF E3.S驱动器扩展模块,是不是就像一个特别的PCIe转接卡?把1个x8拆分为2个x4 lane。
冷板式液冷:漏液检测&预留空间
0002535a110bf1.png
大约在10年前,我就了解到“漏液检测”对冷板式液冷服务器的重要性,包括避免短路等。上图为漏液检测线缆在机箱内的布局。
0002560d7f85cc.png
每块M7725主板上,2颗AMD EPYC(SP5)CPU插座和内存插槽——每CPU 12通道1DPC,占据了大部分的面积。
HPM属于OCP Server工作组下面的MHS(Modular Hardware System)项目定义的主板尺寸规范。大家做成通用的,机箱就容易标准化通用一些(至少需要改动的部分小了)。
000259885b2dd7.png
注:上图中的箭头代表拆卸动作,而不是液体流向。
如上图,液体从一侧进入机箱后,应该是通过管线按顺序“流经”同一M7725节点内的2个CPU(上面的冷板),然后流出机箱。
000305a5031290.png
参考上图中的IMM supply模组,M7725这2个进出液体的位置,应该是支持单向4管道。而从前面的图来看只用到了一半?是不是当前这个CPU功率密度就够了,还具备为GPU节点或者未来更多设计的预留空间。
小结
以上我的学习笔记就先写到这里了,回到本文开头的预留的问题,我来简单总结一下吧:
1、PowerEdge M7725属于一个Multiple Nodes(多节点)系列,M7701只是1 OU机箱,里面2块服务器主板独立运行,但不支持单独下电/下架维护。
2、传统的2U 4节点服务器,除了跑CPU高密度HPC等计算之外,还可以跑超融合——这让我想起了VSAN Ready Node、VXRail… 因为机箱中是多节点共享的冗余电源,然后每节点又可以分配6块2.5英寸/3块3.5英寸硬盘或SSD。而这次的M7725则比较专注——就是HPC/AI计算,本地存储都不多。
3、像M7725这样选择整机架方案的,集群往往不会太小,HPC的GRID网格架构天然支持节点级容错,一次4颗CPU下线维护不是问题。
4、48-54V目前有NVIDIA等GPU厂商在推动,比如我在《Meta的GB200液冷AI服务器 - Catalina》里面列出过下图。有些客户应该有在统一的数据中心供电环境下混部GPU和CPU集群的需求。
参考下图,Dell也有GB200的机型,不过9712a型号前面可没加PowerEdge前缀。不知是否有点类似于转销?如果NV直接找ODM把机器都做好了,OEM也就没多大空间可以玩了吧。
000316e5d190bc.png
接下来的一篇我有点想写GPU服务器,同样是液冷但看上去要复杂些了。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

hdy

600

主题

345

回帖

651

积分

二级逆天

积分
651