马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
据SemiAnalysis报道,AMD计划在2026年推出两款专门面向AI加速场景的机柜系统——Instinct MI450X IF64和Instinct MI450X IF128,其内分别集成了64和128张(MI450X)GPU。很明显,这是直接对标Nvidia未来的VR200 NVL144机架系统。但鉴于大型系统的复杂性,AMD这一产品的市场表现还有待观察。 AMD之前发布的Instinct MI300系列AI专用GPU性能非常强大,但由于最高只能扩展到8张GPU(即部署在一台服务器内),一直不被客户喜欢。显然,AMD希望改变这一局面,因为越高端的产品/系统,意味着更丰厚的利润。 这两款产品的配置反映了AMD强烈的挑战欲望。目前Nvidia GB200 NVL144系统内部实际集成了72个Blackwell GPU处理器。尽管尚不得知AMD的“MI450X”性能如何(姑且看作是下一代旗舰),IF64系统内64张MI450X虽然略低于Nvidia GB200中的GPU数量了,而IF128系统中128张GPU则远远超过(假如Nvidia没有推出集成更多GPU的产品)。 系统内的GPU数量越多,其算力理论上就越高,但复杂性和技术挑战也越大。比如Nvidia GB200 NVL144系统的72个Blackwell GPU都集成在一个机柜内,超过这一数量可能就需要更多机柜,更多机柜自然意味着更复杂的技术,尤其是高速互连方面,复杂程度必然是“1+1>2”的。 据报道,AMD Instinct MI450X IF128系统有两个机柜组成,机柜间使用基于以太网扩展的Infinity Fabric技术互连。IF128系统的算力部分由32台1U服务器提供,每台服务器内配备一颗AMD EPYC “Venice(威尼斯)” CPU,与4张Instinct MI450X GPU。 AMD Instinct MI450X IF128系统架构图(图来自SemiAnalysis) 每张GPU都有独立的LPDDR内存池和一块4通道的PCIe SSD。据介绍,每张GPU可通过双向带宽超1.8TB/s的内部通道与集群内其他设备高速通信,服务器间则通过800GbE网卡互连,每台服务器最多可配备3张800GbE Pensando网卡。 并且,与Nvidia GB200系统使用光纤连接不同,据称AMD将使用更简单的无源铜线布线方法,这有助于降低系统成本和功耗,但信号完整性和电缆长度限制可能会存在技术挑战。 很显然,IF128系统的技术复杂性大大超过了Nvidia GB200,同时在制造和客户部署方面也会面临不小的挑战。为了应对这一风险,IF64则是基于IF128相同架构的“半配版”,即所有系统都集成在一个机柜内,如同Nvidia GB200那样,但显然从数字上,其算力将不如GB200,但好处是互连设计和部署都更加简单,如果考虑到AMD一直以来的性价比优势,对很多客户来说,也许是一个不错的选择。 不过,现在唯一担心的就是IF128系统是否能如约推出,AMD几十年的数据中心经验积淀能否帮助AMD避开Nvidia遇到的那些“技术坑”。
|