马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
AMD MI430X UL4架构解析(预测) 由于AMD加速产品路线图,我们推测其将跳过MI375X(CDNA4改良版),直接进入CDNA-NEXT世代。对于CDNA-NEXT系列芯片,我们相信AMD将发布两款SKU:面向FP64传统HPC工作负载的型号——保留大量FP64张量核与专注AI工作负载的型号——大幅削减FP64核心数量。这两款产品均采用2个IO芯片、2个基础主动中介层和4个3D堆叠计算芯片的模块化设计。 作为HPC向产品,MI430X UL4将配备充足的FP64张量核。由于UALink交换机短期内无法商用(Astera Lab、Enfabrica、XConn或Auradine尚未完成流片),该型号仅支持4块GPU的点对点网状拓扑("UL4"中的"4"即源于此)。当前UALink部署的局限性在于:在缺乏专用交换机的情况下,最多只能实现少量GPU互联。尽管理论上可构建Torus或Mesh拓扑,但AMD因设计与软件资源不足,优先选择以太网作为扩展方案。 UALink作为开放扩展标准在理论上极具吸引力,但实际推进受多方委员会决策拖累而进展缓慢。AMD自身缺乏内部UALink交换机组研发能力,需依赖Astera Lab或博通等第三方。值得注意的是,博通因预估UALink交换机市场规模低于以太网交换机,未投入足够资源加速其上市进程。需明确的是,面向横向扩展的Ultra Ethernet标准进展顺利,符合UEC标准的交换机已上市。
从硬件层面看,MI430X和MI455X存在构建类Google TPU Torus拓扑的可能性,但AMD未分配资源开发此类方案。此前阿里巴巴曾推动UALink扩展计划,但因最新出口限制政策影响,该方案优先级已下降。 MI450X以太网Infinity Fabric(IFoE)架构深度解析 AI计算的核心竞争力在于系统级设计而非芯片级性能。当ASIC厂商、NVIDIA乃至华为均提供整机柜级扩展方案时(例如NVIDIA支持72加速器的GB200 NVL72),AMD客户仍受限于8加速器的封闭扩展架构。为突破此限制,AMD于2025年3月以49亿美元收购美国ODM厂商ZT Systems,将其工程团队全面转向AMD整机柜方案开发,逐步放弃NVIDIA系统研发。目前Celestica和联想仅提供有限支持,主力开发由AMD/ZT承担。 AMD整机柜方案预计随MI450X在2026下半年发布,同期NVIDIA将推出Oberon平台的Rubin NVL144方案。下文将详细解析MI450X的架构设计及其与Rubin的竞争潜力。 MI450X计算托盘设计细节
根据SemiAnalysis预测,我们相信AMD将在单个计算托盘上安装四块MI450X OAM模块,此举旨在提升可维护性与可修复性。合理的推测是:每个计算托盘包含四块MI450X GPU和一颗Venice CPU。由于x86架构的EPYC CPU在性能上优于NVIDIA基于ARM的CPU,且能实现更无缝的软件集成,这种配置具备显著优势。MI450X的TDP(热设计功耗)预计在1600W至2000W之间,其浮点性能将基于预期TDP与Rubin芯片形成竞争。 MI450X GPU将直接访问三级内存架构,这表明该整机柜方案针对推理工作负载进行了深度优化——多级内存的配置能够实现更高效的KV缓存管理。值得注意的是,GPU与SSD之间设有直连PCIe通道,而NVIDIA GB200仍需通过Grace CPU访问NVMe存储。具体内存层级如下: 1.封装内HBM:提供288GB或432GB容量,带宽达18TB/s 2.直连GPU的LPDDR5X:通过定制HBM接口实现819GB/s带宽 3.PCIe直连SSD:类似于NVIDIA HGX的本地NVMe GPUDirect存储方案 4.CPU MR-DIMM DDR5:通过16通道64G Infinity Fabric连接 其中,直连GPU的LPDDR5X设计与Rubin Ultra架构相似,而PCIe直连SSD则对标NVIDIA HGX的本地存储方案。 网络扩展方案与SKU配置 由于UALink交换机在2026下半年前无法就绪,MI450X将采用基于以太网的Infinity Fabric(IFoE)作为扩展协议。MI450X的IFoE扩展带宽至少达到1.8TB/s单向传输(72条200Gbps通道),这将与Rubin形成直接竞争。 AMD计划推出三种不同后端网络配置的MI450X SKU: 1.每GPU配置三块AMD 800GbE以太网卡 oGPU与网卡间采用UALink协议 o单GPU带宽达2.4Tbit/s o此为横向扩展带宽最激进的SKU 2.每GPU配置两块AMD 800GbE以太网卡 oGPU与网卡间采用UALink协议 o单GPU带宽为1.6Tbit/s o此为适度横向扩展方案 3.每GPU配置两块定制PCIe 6.0 800GbE以太网卡 oGPU与网卡间采用PCIe 6.0协议 o单GPU带宽为1.6Tbit/s o此版本允许客户选用非AMD网卡 选择AMD网卡的配置可使每GPU横向扩展带宽比非AMD方案提升50%。 整机柜拓扑架构解析
AMD的MI450X IFoE整机柜将采用ORV3机架设计(类似NVIDIA Oberon平台),具体架构如下:顶部层——8个计算托盘,中间层——9个交换托盘,底部层——8个计算托盘。 与NVIDIA GB200 NVL72方案的关键差异在于:NVIDIA机柜顶部配置10个计算托盘,而AMD仅配置8个,这使得AMD的MI450X IFoE整机柜总扩展规模为64 GPU(NVIDIA为72 GPU)。尽管64 GPU规模在运行AI负载时效率更优,但NVIDIA选择72 GPU设计的原因在于:额外8 GPU可提供计算节点故障时的冗余灵活性。虽然AMD最终规模尚未确定,但我们观察到客户仍倾向于72 GPU的扩展域设计。
|