从GPU互连，推测三大公司的发展策略

显示全部楼层 · 前天 22:53

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 hdy 于 2025-5-21 22:55 编辑

引言 — 前天台北的Computex上，老黄介绍了NVLink Fusion方案，通过NVLink（C2C？） chiplet和IP授权，支持AI基础设施的半定制。

这是GPU互连和AI业界的一大步，借此我猜测一下英伟达的发展策略。

同时，回顾一下通过GPU互连来推测三个公司发展的猜测，基本都得到了验证，有一个公司还特别准。看来我做市场也有不错的基本素质。

古代孙膑有一个计策叫增兵减灶，迷惑对方。用灶与人的比例，可以推测兵的人数。灶是人的互连，同理。

1. 英伟达

2. 英特尔

3. AMD

I. 英伟达

从收购Mellanox那刻起，英伟达就点燃了新的战火

对Mellanox的收购，不仅仅是对于南北向流量，scale out互连板块的补足，更是对NVLink技术演化的加强，使得NVLink可以从原来机器内的P2P互连，变为基于NVSwitch的交换互连，再升级为NVLink network支持跨节点的互连。

下图是我整理的NVLink的发展示意图，对照时间表，英伟达收购Mellanox在2020年，编码方式也开始从整齐的50G变为以太网SerDes的常用频点。

今年的Computex上，老黄提出了NVLink Fusion。

通过NVLink chiplet和IP授权，集成客户自定义 ASIC，TPU或者CPU，与Nvidia的GPU，实现无缝互联，兼容Spectrum-X和InfiniBand网络。

我特意看了两遍老黄的keynotes，口头描述中对NVLink Fusion的方案介绍中是指NVLink，而具体的合作实现中，全是说NVLink C2C，也就是用于CPU与GPU之间的互连，或者CPU与CPU之间的互连。

老黄又在玩文字游戏了 @。@

与NVLink 不同，NVLink C2C脱胎于本用于die to die的封装内互连技术。

对于支持NVLink C2C的半定制化开放支持，是老黄对于X86 CPU的进一步剥离和舍弃。

NVLink C2C 支持Arm’s AMBA CHI协议，通过引入更多的合作伙伴，来增强CPU侧的生态，解决Arm CPU与X86 CPU用户使用习惯上的劣势。

而老黄的文字游戏，我认为暗示着NVLink Fusion的解决方案，本身将来有对于NVLink 开放授权的计划。

一方面，这是对于UALink本身的打击，对于目前生态尚在发展中的UALink，可以向客户提供一种已充分验证的另一种选择。

目标客户为缺乏互连技术且开展AI芯片定制化的大型客户。嗯，这里，我点一下AWS同学。

NV-NVLink向左，AWS-NeuronLink向右

另一方面，这是对于芯片定制化市场中scale up网络的市场维护。

对于决定开展芯片定制化的大型客户，能以NVLink的形式参与到其中，即可以有芯片定制化的IP收入，又可以有NVLink switch的收入，更重要的是可以深入参与到客户的芯片定制化中，更加精准地提供更好的芯片方案。

可谓一箭三雕。

II. 英特尔

昨天的Computex上，英特尔介绍了针对于加速器的互连和产品解决方案。

英特尔 Gaudi 3 机架级系统参考设计

专为灵活性和可扩展性而构建，每个机架支持多达 64 个Gaudi3加速器，并提供 8.2 TB 的高带宽内存。

与英伟达的模式不同，英特尔的开放式模块化设计有助于避免供应商锁定。

也就是支持客户基于Gaudi3模块，来做自己的机架级产品开发，把系统创新，自由度，以及产业链合作，利润全部交给客户做决定。

类似的采用Cable Tray与液冷方案，兼容目前主流的机架系统设计的生态，便于产品实现，并有助于控制总拥有成本（TCO）。

英特尔 Gaudi 机架级架构针对运行大型 AI 模型进行了优化，在实时推理和低延迟性能方面表现出色。

这些配置加强了英特尔对开放、灵活和安全的人工智能基础设施的承诺，支持云服务提供商（CSP）的定制和开放计算项目（OCP）设计。

III. AMD

AMD对于GPU的扩展支持上最大的短板在于互连技术，特别是scale up网络。
在文章中，指出：对于GB系列，机架互联，集群设计等发展区域，对于越来越复杂的AI系统，AMD急需要这样的能力去构建，并使能相匹配的架构，并且在下一代产品中提出创新以及颠覆性的改变和设计。
AMD目前只支持基于P2P的八卡服务器设计，即full mesh的GPU互连拓扑。

之前有新闻与Broadcom合作基于PCIE Gen7的交换机，以支持更大规模的互连，时间指向了2027，且变数较多。
AMD也是UALink组织的重要贡献者，然而UALink的实现时间，估计也在2027年左右。

所以我之前推测，AMD急于在2027年之前的时间窗口中，提供一种机架互连方案，而对于ZTsystem的收购就是补足了系统工程实践方面的短板和与CSP厂商合作方面的经验。
根据最新SemiAnalysis的分析，AMD的发展策略验证了我之前的这个想法。AMD会用一种Infinity Fabric over Ethernet（IFoE）的协议，来沿用以太网的生态。又是熟悉的味道，上一次云计算开始时，以太网也是通过各种“over”来实现了对于各种协议的防卫。
通过IFoE，AMD可以在单机架中支持64个MI450加速器。

[最新新闻] 从GPU互连，推测三大公司的发展策略

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区