[最新新闻] 从GPU互连,推测三大公司的发展策略

[复制链接]
查看6 | 回复0 | 前天 22:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 hdy 于 2025-5-21 22:55 编辑

引言 — 前天台北的Computex上,老黄介绍了NVLink Fusion方案,通过NVLink(C2C?) chiplet和IP授权,支持AI基础设施的半定制。
这是GPU互连和AI业界的一大步,借此我猜测一下英伟达的发展策略。
同时,回顾一下通过GPU互连来推测三个公司发展的猜测,基本都得到了验证,有一个公司还特别准。看来我做市场也有不错的基本素质。
古代孙膑有一个计策叫增兵减灶,迷惑对方。用灶与人的比例,可以推测兵的人数。灶是人的互连,同理。

1. 英伟达
2. 英特尔
3. AMD
2244556851fccf.png


I. 英伟达



对Mellanox的收购,不仅仅是对于南北向流量,scale out互连板块的补足,更是对NVLink技术演化的加强,使得NVLink可以从原来机器内的P2P互连,变为基于NVSwitch的交换互连,再升级为NVLink network支持跨节点的互连。

下图是我整理的NVLink的发展示意图,对照时间表,英伟达收购Mellanox在2020年,编码方式也开始从整齐的50G变为以太网SerDes的常用频点。
qp8qgv.png

今年的Computex上,老黄提出了NVLink Fusion。

通过NVLink chiplet和IP授权,集成客户自定义 ASIC,TPU或者CPU,与Nvidia的GPU,实现无缝互联,兼容Spectrum-X和InfiniBand网络。

我特意看了两遍老黄的keynotes,口头描述中对NVLink Fusion的方案介绍中是指NVLink,而具体的合作实现中,全是说NVLink C2C,也就是用于CPU与GPU之间的互连,或者CPU与CPU之间的互连。
f6s99e.png
老黄又在玩文字游戏了 @。@


与NVLink 不同,NVLink C2C脱胎于本用于die to die的封装内互连技术。
对于支持NVLink C2C的半定制化开放支持,是老黄对于X86 CPU的进一步剥离和舍弃。
NVLink C2C 支持Arm’s AMBA CHI协议,通过引入更多的合作伙伴,来增强CPU侧的生态,解决Arm CPU与X86 CPU用户使用习惯上的劣势。

而老黄的文字游戏,我认为暗示着NVLink Fusion的解决方案,本身将来有对于NVLink 开放授权的计划。

一方面,这是对于UALink本身的打击,对于目前生态尚在发展中的UALink,可以向客户提供一种已充分验证的另一种选择。
目标客户为缺乏互连技术且开展AI芯片定制化的大型客户。嗯,这里,我点一下AWS同学。

另一方面,这是对于芯片定制化市场中scale up网络的市场维护。
对于决定开展芯片定制化的大型客户,能以NVLink的形式参与到其中,即可以有芯片定制化的IP收入,又可以有NVLink switch的收入,更重要的是可以深入参与到客户的芯片定制化中,更加精准地提供更好的芯片方案。

可谓一箭三雕。


II. 英特尔



昨天的Computex上,英特尔介绍了针对于加速器的互连和产品解决方案。
英特尔 Gaudi 3 机架级系统参考设计
专为灵活性和可扩展性而构建,每个机架支持多达 64 个Gaudi3加速器,并提供 8.2 TB 的高带宽内存。
与英伟达的模式不同,英特尔的开放式模块化设计有助于避免供应商锁定。
也就是支持客户基于Gaudi3模块,来做自己的机架级产品开发,把系统创新,自由度,以及产业链合作,利润全部交给客户做决定。
22445603ee7c45.png

类似的采用Cable Tray与液冷方案,兼容目前主流的机架系统设计的生态,便于产品实现,并有助于控制总拥有成本 (TCO)。
英特尔 Gaudi 机架级架构针对运行大型 AI 模型进行了优化,在实时推理和低延迟性能方面表现出色。
这些配置加强了英特尔对开放、灵活和安全的人工智能基础设施的承诺,支持云服务提供商 (CSP) 的定制和开放计算项目 (OCP) 设计。

III. AMD


AMD对于GPU的扩展支持上最大的短板在于互连技术,特别是scale up网络。
在文章中,指出:对于GB系列,机架互联,集群设计等发展区域,对于越来越复杂的AI系统,AMD急需要这样的能力去构建,并使能相匹配的架构,并且在下一代产品中提出创新以及颠覆性的改变和设计。
AMD目前只支持基于P2P的八卡服务器设计,即full mesh的GPU互连拓扑。
  • 之前有新闻与Broadcom合作基于PCIE Gen7的交换机,以支持更大规模的互连,时间指向了2027,且变数较多。
  • AMD也是UALink组织的重要贡献者,然而UALink的实现时间,估计也在2027年左右。

所以我之前推测,AMD急于在2027年之前的时间窗口中,提供一种机架互连方案,而对于ZTsystem的收购就是补足了系统工程实践方面的短板和与CSP厂商合作方面的经验。
根据最新SemiAnalysis的分析,AMD的发展策略验证了我之前的这个想法。AMD会用一种Infinity Fabric over Ethernet(IFoE)的协议,来沿用以太网的生态。又是熟悉的味道,上一次云计算开始时,以太网也是通过各种“over”来实现了对于各种协议的防卫。
通过IFoE,AMD可以在单机架中支持64个MI450加速器。 oyuv32.png


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

hdy

507

主题

338

回帖

540

积分

二级逆天

积分
540