[业界/制造] 从H100、GH200到GB200,三代GPU集群架构解析

[复制链接]
查看10 | 回复0 | 昨天 19:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×

随着 AI 模型规模持续扩大,单 GPU 训练已不再可行。当前行业的核心挑战在于如何将数百甚至数千颗 GPU 互连,构建出像单一系统般协同工作的超级计算系统。英伟达的 DGX SuperPOD 是面向数据中心的下一代 AI 架构,旨在为 AI 模型训练、推理、高性能计算(HPC)及混合工作负载提供所需算力,在提升预测精度的同时缩短部署周期。本文将深入解析英伟达三代 GPU 互连架构:H100、GH200 与 GB200。
基于 H100 构建 256-GPU SuperPod
在 DGX A100 时代,每个计算节点包含 8 颗 GPU,节点内通过 NVLink 和 NVSwitch 实现互连,而节点间通信(跨服务器)则依赖 200Gbps 速率的 InfiniBand(IB)HDR 网络(注:也可替换为 RoCE 网络)。
到了 DGX H100 阶段,英伟达将 NVLink 技术从节点内通信拓展至节点间,推出NVLink 网络交换机。在单个节点内部,NVSwitch 负责处理 GPU 间的本地流量;节点间通信则由 NVLink 网络交换机接管,这种设计使得 SuperPOD 能够支持最多 256 颗 H100 GPU 的集群规模。即使跨 256 颗 GPU 执行数据归约操作,带宽仍可达 450 GB/s,与单服务器内的带宽水平保持一致。
193326b7b6de80.png
尽管 H100 SuperPOD 实现了跨节点互连的突破,但其网络架构仍存在限制:DGX H100 节点间仅通过 72 条 NVLink 链路连接,导致整个 SuperPOD 网络并非完全无阻塞。
如图所示,在 DGX H100 系统中,4 个 NVSwitch 仅能为节点间通信提供 72 条 NVLink 连接。这些链路的总双向带宽为 3.6TB/s,而 8 颗 H100 GPU 的总双向带宽可达 7.2TB/s,这意味着在 NVSwitch 层面存在带宽资源的超额分配,形成潜在的通信瓶颈。
19332646dded4d.png 193327d9b9b8b9.png
基于 H100 的 256-GPU SuperPod
基于GH200和GH200 NVL32 构建 256-GPU SuperPod
2023 年,英伟达宣布量产其生成式 AI 引擎 DGX GH200。该系统将 H200 GPU(与 H100 的主要差异在于显存容量和带宽)与 Grace CPU 深度集成,实现1 颗 Grace CPU 与 1 颗 H200 GPU 的一一配对。除 GPU 间的 NVLink 4.0 连接外,GH200 还通过 NVLink 4.0 实现 CPU 与 GPU 的高速互连,单链路带宽达 900GB/s,为算力释放奠定基础。
1933288bc7d210.png
在硬件部署层面,GH200 服务器节点内采用铜缆连接,节点间则依赖光纤通信。以 256-GPU 规模的 GH200 集群为例,每颗 GH200 配备 9 个 800Gbps 光模块,每个模块通过两条 NVLink 4.0 链路实现 100GB/s 的带宽传输能力。
DGX GH200 SuperPod 与前代 H100 SuperPod 的核心差异在于:节点内与节点间通信均采用 NVLink 网络交换机,构建全链路高速互连体系。
DGX GH200 节点采用两层 Fat-tree 架构,每个节点由 8 个 GH200 GPU 和 3 个 NVLink 网络交换机组成,位于第一层。当扩展至 256-GPU 规模时,需新增第二层 36 个 NVLink 网络交换机,以确保完全无阻塞的网络。
193328fc9cc82c.png
基于 GH200 的 256-GPU SuperPod
针对机架级集群优化的 GH200 NVL32 方案,单个机架集成 32 颗 GH200 GPU 与 9 个 NVSwitch 托盘(每个托盘包含 2 颗 NVSwitch 芯片)。256 块 GPU 的 GH200 NVL32 系统需要额外部署36 个第一层 NVLink 网络交换机才能组成 SuperPod。
193329af4d527c.png
基于 GB200 NVL72 构建 576-GPU SuperPod
与 GH200 不同,GB200 集成了一个 Grace CPU 和两个 Blackwell GPU(注:每个 Blackwell GPU 的性能并不完全匹配单个 B200 GPU)。GB200 计算托盘基于英伟达的 MGX 架构设计,每个托盘包含两个 GB200 模块,相当于两个 Grace CPU 和四个 GPU。
193329197c3c22.png
一个 GB200 NVL72 节点包含 18 个 GB200 计算托盘(36 个 Grace CPU 和 72 个 GPU),以及 9 个 NVLink 网络交换机托盘。每个 Blackwell GPU 配备 18 个 NVLink 连接,而每个 NVLink 网络交换机托盘则配备 144 个 NVLink 端口。因此,需要 9 个 NVLink 网络交换机托盘才能为 72 个 GPU 建立完整的连接。
1933301eb43955.png
GB200 NVL72的内部拓扑
根据英伟达官方文档,8个GB200 NVL72单元可以组成一个SuperPod,从而实现576个GPU的超级计算节点。
然而,仔细观察后发现,GB200 NVL72 节点内的 9 个 NVLink 网络交换机托盘已完全用于连接 72 个 GB200 模块,没有多余的 NVLink 端口来扩展至更大的双层交换机架构。
根据英伟达的官方图表,576-GPU SuperPod 很可能通过 Scale-Out RDMA 网络实现节点间通信,而不是依赖基于 NVLink 的 Scale-Up 架构。要使用 NVLink 互连 576 个 GPU,每组 72 个 GB200 模块需要 18 个额外的 NVSwitch,这将超出单个机架的物理空间。
英伟达还表示,NVL72 提供单机架和双机架配置。在双机架版本中,每个计算托盘连接到单个 GB200 子系统。此双机架版本可能会使用 NVLink 互连来支持完整的 576 GPU SuperPod。
193330879bd96a.png
基于 GB200 的 576-GPU SuperPod
GB200 SuperPod 与完全互联的 256-GPU H200 架构类似,采用双层 NVLink 网络交换机结构来支持其 576 个 Blackwell GPU。在第一层,一半的交换机端口专用于连接全部 576 个 GPU,总共需要 144 个 NVLink 网络交换机。在第二层,剩余的交换机端口用于与第一层的交换机互连,因此需要额外 72 个 NVLink 交换机来构成完整的网络。这种双层设计确保了高效的 GPU 互联互通和可扩展性。
这一架构不仅突破了前代 H100/GH200 在节点间互连的带宽瓶颈,更通过 “NVLink 内连 + 高速网络外延” 的方案,为 EB 级数据处理与万亿参数模型训练提供了可落地的基础设施方案,标志着 AI 算力集群从 “规格堆叠” 迈向 “体系化架构创新” 的新阶段。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

hdy

280

主题

319

回帖

714

积分

二级逆天

积分
714