Deepseek对未来AI网络硬件架构设计的讨论与展望

显示全部楼层 · 前天 00:37

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

今年初 DeepSeek 发布了 V3 模型的技术报告，本月他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文！

这篇 14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得，还能收获他们为未来的硬件设计给出的思考和建议。这一次，DeepSeek CEO 梁文锋同样也是署名作者之一。这篇文章重点描述该论文中对对未来AI网络硬件架构设计的讨论与展望

网络协同设计：多平面胖树

在 DeepSeek-V3 的训练过程中，DeepSeek 部署了一个多平面胖树 (MPFT) 横向扩展（scale-out）网络，如图 3 所示。

其中，每个节点配备 8 台 GPU 和 8 个 IB 网卡，每个 GPU - 网卡对分配到不同的网络平面。此外，每个节点还配备一个 400 Gbps 以太网 RoCE 网卡，连接到单独的存储网络平面，用于访问 3FS 分布式文件系统。在横向扩展网络中，他们使用了 64 端口 400G IB 交换机，使该拓扑理论上最多可支持 16,384 台 GPU，同时保留了双层网络的成本和延迟优势。然而，由于政策和监管限制，最终部署的 GPU 数量仅为两千余台。

此外，由于 IB ConnectX-7 目前的局限性，DeepSeek 部署的 MPFT 网络未能完全实现预期的架构。理想情况下，如图 4 所示，每个网卡 (NIC) 应具有多个物理端口，每个端口连接到单独的网络平面，但通过端口绑定，共同作为单个逻辑接口向用户公开。

从用户的角度来看，单个队列对 (QP) 可以在所有可用端口之间无缝地发送和接收消息，类似于数据包喷射。因此，来自同一 QP 的数据包可能会穿越不同的网络路径，并以无序方式到达接收方，因此需要在网卡内原生支持无序布局，以保证消息一致性并保留正确的排序语义。例如，InfiniBand ConnectX-8 原生支持四平面。未来的网卡能够完全支持高级多平面功能，从而使双层胖树网络能够有效地扩展到更大的 AI 集群，这将大有裨益。总体而言，多平面架构在故障隔离、稳健性、负载均衡和大规模系统可扩展性方面具有显著优势。

DeepSeek 还介绍了多平面胖树的几大优势，包括 MPFT 由多轨胖树 (MRFT) 的子集构成（因此可以无缝整合英伟达和 NCCL 为 MRFT 网络开发的现有优化技术）、成本效益、流量隔离、延迟降低、稳健性等，详见原论文。

DeepSeek 还对 MPFT 和 MRFT 进行了对比性的性能分析，结果见图 5 和 6 以及表 4。

基于此，他们得到了一些关键发现，包括多平面网络的 all-to-all 性能与单平面多轨网络非常相似；在 2048 块 GPU 上训练 V3 模型时，MPFT 的性能与 MRFT 的性能几乎相同。

低延迟网络

在 DeepSeek 的模型推理中，大规模 EP 严重依赖于 all-to-all 通信，而这种通信对带宽和延迟都非常敏感。举一个典型场景的例子，在 50GB/s 的网络带宽下，理想情况下数据传输大约需要 120 𝜇s。因此，微秒级的固有网络延迟会对系统性能产生严重影响，其影响不容忽视。那么，DeepSeek 是怎么做的呢？

首先分析一下 IB 或 RoCE。如表 5 所示，IB 始终能保持较低的延迟，这使得使其成为了分布式训练和推理等延迟敏感型工作负载的首选。尽管 IB 的延迟性能优于基于融合以太网的 RDMA (RoCE)，但它也存在一些局限性，包括成本和扩展性方面的问题。

虽然 RoCE 有可能成为 IB 的经济高效的替代方案，但其目前在延迟和可扩展性方面的限制使其无法完全满足大规模 AI 系统的需求。DeepSeek 也给出了一些改进 RoCE 的具体建议，包括使用专用低延迟 RoCE 交换机、优化路由策略、改进流量隔离或拥塞控制机制。

为降低网络通信延迟，DeepSeek 使用了 InfiniBand GPUDirect Async (IBGDA)。

传统上，网络通信涉及创建 CPU 代理（proxy）线程：GPU 准备好数据后，必须通知 CPU 代理，然后 CPU 代理填充工作请求 (WR) 的控制信息，并通过门铃机制向 NIC) 发出信号，以启动数据传输。此过程会带来额外的通信开销。

IBGDA 是如何解决此问题的？实际上，它的做法是允许 GPU 直接填充 WR 内容并写入 RDMA 门铃 MMIO 地址。

通过在 GPU 内部管理整个控制平面，IBGDA 消除了与 GPU-CPU 通信相关的显著延迟开销。此外，在发送大量小数据包时，控制平面处理器很容易成为瓶颈。由于 GPU 具有多个并行线程，发送方可以利用这些线程来分配工作负载，从而避免此类瓶颈。包括 DeepSeek 的 DeepEP 在内的一系列工作都利用了 IBGDA，并报告使用它取得了显著的性能提升。因此，DeepSeek 提倡在各种加速器设备上广泛支持此类功能。

未来硬件架构设计的讨论与见解

前面在具体的应用场景（application contexts）中指出了硬件局限性，并提供了相应的建议。在此基础上，接下来将讨论扩展到更广泛的考量，并为未来的硬件架构设计提出前瞻性方向：

鲁棒性挑战：如何通过更先进的错误检测与纠正机制，应对硬件故障和静默数据损坏，构建永不停歇的 AI 基础设施。
CPU 瓶颈与互联限制：如何优化 CPU 与加速器之间的协同，特别是突破 PCIe 等传统接口的限制，实现高速、无瓶颈的节点内部通信。
面向 AI 的智能网络：如何打造具备低延迟和智能感知能力的网络，通过光互联、无损机制、自适应路由等技术，应对复杂的通信需求。
内存语义通信与排序：如何解决当前内存语义通信中的数据一致性与排序挑战，探索硬件层面的内建保证，提升通信效率。
网络中计算与压缩：如何将计算和压缩能力下沉到网络中，特别是针对 EP 等特定负载，释放网络带宽潜力。
以内存为中心的架构创新：如何应对模型规模指数级增长带来的内存带宽危机，探索 DRAM 堆叠、晶圆级集成等前沿技术。

现有限制：

互连故障（Interconnect Failures）：高性能互联（如 IB 和 NVLink）易在实际部署中出现间歇性连接中断，影响节点间通信。尤其在通信密集型负载（例如 EP）中，即使短暂中断亦可导致显著性能下降，甚至任务失败。
单点硬件故障（Single Hardware Failures）：节点宕机、GPU 故障或 ECC（错误更正码）内存出错等单点硬件故障，可能影响长时间运行的训练任务，常需高昂重启。大规模部署中，这类单点故障概率随系统规模扩大显著上升。
静默数据损坏（Silent Data Corruption）：例如多位内存翻转或计算精度误差等绕过 ECC 检测机制的错误，可能导致模型质量受损。这类错误尤为隐蔽，易在长时间运行任务中累积传播并污染下游计算（downstream computations）。目前多数应用层启发式缓解策略（mitigation strategies）难以实现系统级全面鲁棒保障。

面向高级错误检测与纠正的建议：为缓解静默损坏风险，硬件应集成超越传统 ECC 的高级错误检测机制，如基于校验和验证、硬件加速冗余校验，以提升大规模部署可靠性。

此外，厂商应提供全面诊断工具包，使用户能精确验证系统完整性，主动预警潜在静默损坏。将工具包作为标准硬件配置部署，可促进全生命周期持续验证和透明度，增强系统整体可信度。

CPU 瓶颈与互联网络限制：尽管加速器（accelerator）设计常为系统优化核心，但 CPU 在协调计算任务、管理 I/O 和维持整体系统吞吐方面仍扮演关键角色。然而，当前硬件架构存在若干关键瓶颈：

首先，如前所述，CPU 与 GPU 间的 PCIe 接口在大规模参数、梯度或 KV 缓存（KV cache）传输中常成带宽瓶颈。为缓解此问题，未来系统应引入 CPU–GPU 直连互联方案（例如 NVLink 或 Infinity Fabric），或将 CPU 与 GPU 集成于 scale-up domain，消除节点内部数据传输瓶颈。

除 PCIe 限制外，维持如此高数据传输速率需极高内存带宽。例如，要充分利用 160 通道 PCIe 5.0 接口，每节点需超过 640 GB/s 数据传输能力，这意味约 1 TB/s 每节点内存带宽，对传统 DRAM 架构是一大挑战。

最后，对延迟敏感任务（诸如 kernel launch、网络处理）需高单核 CPU 性能，通常基础主频需达 4 GHz 以上。此外，现代 AI 工作负载要求每 GPU 配备足够 CPU 核心，避免控制侧瓶颈。对于基于芯粒（chiplet）的架构，还需额外 CPU 核心支持实现面向缓存的负载划分与隔离策略（cache-aware workload partitioning and isolation）。

面向 AI 的智能网络架构

为了应对延迟敏感型工作负载的需求，未来的互联网络需同时具备「低延迟」与「智能感知」的能力，具体可从以下几个方向探索：

封装内光互联（Co-Packaged Optics）：通过集成硅光子（silicon photonics）技术，能够实现可扩展的高带宽互联，并显著提升能效，这对于构建大规模分布式 AI 系统至关重要。

无损网络（Lossless Network）：基于信用的流控机制（Credit-Based Flow Control, CBFC）可实现无损数据传输，但若采用基础策略触发流控，可能引发严重的队首阻塞（head-of-line blocking）。因此，必须部署更先进的端侧驱动拥塞控制算法（congestion control, CC），以主动调节注入速率，避免网络拥塞恶化为系统性瓶颈。

自适应路由（Adaptive Routing）：如前所述，未来网络应标准化采用动态路由机制，如数据包喷洒（packet spraying）与拥塞感知路径选择策略（congestion-aware path selection）。这些策略可持续感知当前网络状态并智能调度通信流，有效缓解网络热点，特别是在 all-to-all 与 reduce-scatter 等集合通信操作中，对缓解通信瓶颈效果显著。

高效的容错协议（Efficient Fault-Tolerant Protocols）：通过自愈协议、自适应端口冗余和快速故障转移机制，可显著提升系统在故障情境下的鲁棒性。例如，链路级重试机制（link-layer retry）和选择性重传协议（selective retransmission protocols）是提升大规模网络可靠性、减少停机时间的关键组件，能够在面对间歇性故障时确保系统无缝运行。

动态资源管理（Dynamic Resource Management）：为更高效地处理混合型工作负载，未来硬件需支持动态带宽调度与流量优先级控制。例如，统一的多任务集群中应将推理任务与训练通信隔离调度，以确保延迟敏感型应用的响应能力。

内存语义通信与内存排序问题的探讨

基于加载 / 存储语义（load/store memory semantics）进行节点间通信，具有高效且对程序员友好的优势。

但当前实现方案普遍受限于内存排序一致性问题。例如，发送端通常需要在写入数据后，执行显式的内存屏障操作（memory fence），再更新标志位以通知接收端，从而确保数据一致性。

这种强排序要求引入了额外的往返延迟（round-trip time, RTT），可能阻塞发出线程，影响写操作重叠能力，最终降低吞吐率。

类似的乱序同步问题，在基于消息语义的远程直接内存访问（Remote Direct Memory Access, RDMA）中同样存在。例如，在 InfiniBand 或 NVIDIA BlueField-3 上，若在常规 RDMA 写操作之后再执行采用数据包喷洒（packet spraying）的 RDMA 原子加（atomic add）操作，也会引入额外的 RTT 开销。

为应对上述挑战，DeepSeek 团队主张从硬件层面引入内建排序保证，以强化内存语义通信中的数据一致性。这种一致性应同时在编程接口层（如 acquire/release 语义）和接收端硬件层实施，从而实现无需额外开销的有序数据交付。

可行路径包括：在接收端缓存原子消息，并通过数据包序号实现顺序处理；但相比之下，基于 acquire/release 的机制更加优雅且具效率优势。

DeepSeek 团队提出一种简单的概念机制 —— 区域获取 / 释放机制（Region Acquire/Release Mechanism, RAR）：在该方案中，接收端硬件维护一个用于跟踪内存区域状态的位图，获取与释放操作基于 RAR 地址范围生效。

该机制延伸了最小位图开销下的高效排序保障，由硬件强制执行排序逻辑，完全摆脱发送端对显式屏障指令的依赖，理想情况下实现于网络接口卡（NIC）或 I/O 芯片上。

值得强调的是，RAR 机制不仅适用于基于内存语义的通信场景，也可覆盖基于消息语义的 RDMA 操作，具有广泛的实际适用性。

网络中计算与压缩机制

EP（Expert Parallelism）任务涉及两个关键的全对全通信阶段：分发（dispatch）与合并（combine），它们构成网络级优化的重要着力点。

分发阶段类似于小规模的多播（multicast）操作，需要将一条消息转发至多个目标设备。若在硬件协议层支持自动包复制与多目标转发，将大幅减少通信开销，提升总体效率。

合并阶段则近似于小规模规约（reduction）操作，可通过网络中的聚合机制实现场内计算（in-network aggregation）。然而，由于 EP 合并操作通常规约范围有限、负载不均，实现灵活、高效的网络内规约尚具挑战性。

此外，如前所指出，LogFMT 可在基本不影响模型性能的前提下实现低精度 token 传输。若将 LogFMT 原生集成进网络硬件，可通过提升信息熵密度（entropy density）降低带宽消耗，进一步优化通信性能。依托硬件加速的压缩 / 解压模块，LogFMT 可无缝融入分布式系统，从而显著提升整体吞吐能力。

以内存为中心的架构创新

内存带宽的限制：近年来模型规模呈指数级增长，远超高带宽存储器（High-Bandwidth Memory, HBM）技术的发展速度。这种增长差距使得「内存瓶颈」问题愈发突出，尤其在像 Transformer 这类注意力机制密集的模型结构中尤为严重。

架构性建议：DRAM 堆叠加速器（DRAM-Stacked Accelerators）：通过 3D 封装技术，可将 DRAM 芯片垂直集成于逻辑底片之上，从而获得极高的内存带宽、超低访问延迟以及现实可用的内存容量（受堆叠层数限制）。该架构模型在追求极速推理的专家混合模型（Mixture-of-Experts, MoE）中尤显优势，因其对内存吞吐极度敏感。如 SeDRAM 等架构即展示了此方法在内存受限工作负载中的颠覆式性能潜力。

晶圆级集成系统（System-on-Wafer, SoW）：晶圆级集成（wafer-scale integration）可最大化计算密度与内存带宽，是应对超大规模模型所需带宽密度的可行途径。

[IT/数码] Deepseek对未来AI网络硬件架构设计的讨论与展望

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区