马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
今年初 DeepSeek 发布了 V3 模型的技术报告,本月他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文! 这篇 14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得,还能收获他们为未来的硬件设计给出的思考和建议。这一次,DeepSeek CEO 梁文锋同样也是署名作者之一。这篇文章重点描述该论文中对对未来AI网络硬件架构设计的讨论与展望 网络协同设计:多平面胖树 在 DeepSeek-V3 的训练过程中,DeepSeek 部署了一个多平面胖树 (MPFT) 横向扩展(scale-out)网络,如图 3 所示。
其中,每个节点配备 8 台 GPU 和 8 个 IB 网卡,每个 GPU - 网卡对分配到不同的网络平面。此外,每个节点还配备一个 400 Gbps 以太网 RoCE 网卡,连接到单独的存储网络平面,用于访问 3FS 分布式文件系统。在横向扩展网络中,他们使用了 64 端口 400G IB 交换机,使该拓扑理论上最多可支持 16,384 台 GPU,同时保留了双层网络的成本和延迟优势。然而,由于政策和监管限制,最终部署的 GPU 数量仅为两千余台。 此外,由于 IB ConnectX-7 目前的局限性,DeepSeek 部署的 MPFT 网络未能完全实现预期的架构。理想情况下,如图 4 所示,每个网卡 (NIC) 应具有多个物理端口,每个端口连接到单独的网络平面,但通过端口绑定,共同作为单个逻辑接口向用户公开。
从用户的角度来看,单个队列对 (QP) 可以在所有可用端口之间无缝地发送和接收消息,类似于数据包喷射。因此,来自同一 QP 的数据包可能会穿越不同的网络路径,并以无序方式到达接收方,因此需要在网卡内原生支持无序布局,以保证消息一致性并保留正确的排序语义。例如,InfiniBand ConnectX-8 原生支持四平面。未来的网卡能够完全支持高级多平面功能,从而使双层胖树网络能够有效地扩展到更大的 AI 集群,这将大有裨益。总体而言,多平面架构在故障隔离、稳健性、负载均衡和大规模系统可扩展性方面具有显著优势。 DeepSeek 还介绍了多平面胖树的几大优势,包括 MPFT 由多轨胖树 (MRFT) 的子集构成(因此可以无缝整合英伟达和 NCCL 为 MRFT 网络开发的现有优化技术)、成本效益、流量隔离、延迟降低、稳健性等,详见原论文。 DeepSeek 还对 MPFT 和 MRFT 进行了对比性的性能分析,结果见图 5 和 6 以及表 4。
基于此,他们得到了一些关键发现,包括多平面网络的 all-to-all 性能与单平面多轨网络非常相似;在 2048 块 GPU 上训练 V3 模型时,MPFT 的性能与 MRFT 的性能几乎相同。 低延迟网络 在 DeepSeek 的模型推理中,大规模 EP 严重依赖于 all-to-all 通信,而这种通信对带宽和延迟都非常敏感。举一个典型场景的例子,在 50GB/s 的网络带宽下,理想情况下数据传输大约需要 120 𝜇s。因此,微秒级的固有网络延迟会对系统性能产生严重影响,其影响不容忽视。那么,DeepSeek 是怎么做的呢? 首先分析一下 IB 或 RoCE。如表 5 所示,IB 始终能保持较低的延迟,这使得使其成为了分布式训练和推理等延迟敏感型工作负载的首选。尽管 IB 的延迟性能优于基于融合以太网的 RDMA (RoCE),但它也存在一些局限性,包括成本和扩展性方面的问题。
虽然 RoCE 有可能成为 IB 的经济高效的替代方案,但其目前在延迟和可扩展性方面的限制使其无法完全满足大规模 AI 系统的需求。DeepSeek 也给出了一些改进 RoCE 的具体建议,包括使用专用低延迟 RoCE 交换机、优化路由策略、改进流量隔离或拥塞控制机制。 为降低网络通信延迟,DeepSeek 使用了 InfiniBand GPUDirect Async (IBGDA)。 传统上,网络通信涉及创建 CPU 代理(proxy)线程:GPU 准备好数据后,必须通知 CPU 代理,然后 CPU 代理填充工作请求 (WR) 的控制信息,并通过门铃机制向 NIC) 发出信号,以启动数据传输。此过程会带来额外的通信开销。 IBGDA 是如何解决此问题的?实际上,它的做法是允许 GPU 直接填充 WR 内容并写入 RDMA 门铃 MMIO 地址。 通过在 GPU 内部管理整个控制平面,IBGDA 消除了与 GPU-CPU 通信相关的显著延迟开销。此外,在发送大量小数据包时,控制平面处理器很容易成为瓶颈。由于 GPU 具有多个并行线程,发送方可以利用这些线程来分配工作负载,从而避免此类瓶颈。包括 DeepSeek 的 DeepEP 在内的一系列工作都利用了 IBGDA,并报告使用它取得了显著的性能提升 。因此,DeepSeek 提倡在各种加速器设备上广泛支持此类功能。 未来硬件架构设计的讨论与见解 前面在具体的应用场景(application contexts)中指出了硬件局限性,并提供了相应的建议。在此基础上,接下来将讨论扩展到更广泛的考量,并为未来的硬件架构设计提出前瞻性方向: 鲁棒性挑战: 如何通过更先进的错误检测与纠正机制,应对硬件故障和静默数据损坏,构建永不停歇的 AI 基础设施。 CPU 瓶颈与互联限制: 如何优化 CPU 与加速器之间的协同,特别是突破 PCIe 等传统接口的限制,实现高速、无瓶颈的节点内部通信。 面向 AI 的智能网络: 如何打造具备低延迟和智能感知能力的网络,通过光互联、无损机制、自适应路由等技术,应对复杂的通信需求。 内存语义通信与排序: 如何解决当前内存语义通信中的数据一致性与排序挑战,探索硬件层面的内建保证,提升通信效率。 网络中计算与压缩: 如何将计算和压缩能力下沉到网络中,特别是针对 EP 等特定负载,释放网络带宽潜力。 以内存为中心的架构创新: 如何应对模型规模指数级增长带来的内存带宽危机,探索 DRAM 堆叠、晶圆级集成等前沿技术。
现有限制: 互连故障(Interconnect Failures): 高性能互联(如 IB 和 NVLink)易在实际部署中出现间歇性连接中断,影响节点间通信。尤其在通信密集型负载(例如 EP)中,即使短暂中断亦可导致显著性能下降,甚至任务失败。 单点硬件故障(Single Hardware Failures): 节点宕机、GPU 故障或 ECC(错误更正码)内存出错等单点硬件故障,可能影响长时间运行的训练任务,常需高昂重启。大规模部署中,这类单点故障概率随系统规模扩大显著上升。 静默数据损坏(Silent Data Corruption): 例如多位内存翻转或计算精度误差等绕过 ECC 检测机制的错误,可能导致模型质量受损。这类错误尤为隐蔽,易在长时间运行任务中累积传播并污染下游计算(downstream computations)。目前多数应用层启发式缓解策略(mitigation strategies)难以实现系统级全面鲁棒保障。
面向高级错误检测与纠正的建议:为缓解静默损坏风险,硬件应集成超越传统 ECC 的高级错误检测机制,如基于校验和验证、硬件加速冗余校验,以提升大规模部署可靠性。 此外,厂商应提供全面诊断工具包,使用户能精确验证系统完整性,主动预警潜在静默损坏。将工具包作为标准硬件配置部署,可促进全生命周期持续验证和透明度,增强系统整体可信度。 CPU 瓶颈与互联网络限制:尽管加速器(accelerator)设计常为系统优化核心,但 CPU 在协调计算任务、管理 I/O 和维持整体系统吞吐方面仍扮演关键角色。然而,当前硬件架构存在若干关键瓶颈: 首先,如前所述,CPU 与 GPU 间的 PCIe 接口在大规模参数、梯度或 KV 缓存(KV cache)传输中常成带宽瓶颈。为缓解此问题,未来系统应引入 CPU–GPU 直连互联方案(例如 NVLink 或 Infinity Fabric),或将 CPU 与 GPU 集成于 scale-up domain,消除节点内部数据传输瓶颈。 除 PCIe 限制外,维持如此高数据传输速率需极高内存带宽。例如,要充分利用 160 通道 PCIe 5.0 接口,每节点需超过 640 GB/s 数据传输能力,这意味约 1 TB/s 每节点内存带宽,对传统 DRAM 架构是一大挑战。 最后,对延迟敏感任务(诸如 kernel launch、网络处理)需高单核 CPU 性能,通常基础主频需达 4 GHz 以上。此外,现代 AI 工作负载要求每 GPU 配备足够 CPU 核心,避免控制侧瓶颈。对于基于芯粒(chiplet)的架构,还需额外 CPU 核心支持实现面向缓存的负载划分与隔离策略(cache-aware workload partitioning and isolation)。 面向 AI 的智能网络架构 为了应对延迟敏感型工作负载的需求,未来的互联网络需同时具备「低延迟」与「智能感知」的能力,具体可从以下几个方向探索: 封装内光互联(Co-Packaged Optics):通过集成硅光子(silicon photonics)技术,能够实现可扩展的高带宽互联,并显著提升能效,这对于构建大规模分布式 AI 系统至关重要。 无损网络(Lossless Network):基于信用的流控机制(Credit-Based Flow Control, CBFC)可实现无损数据传输,但若采用基础策略触发流控,可能引发严重的队首阻塞(head-of-line blocking)。因此,必须部署更先进的端侧驱动拥塞控制算法(congestion control, CC),以主动调节注入速率,避免网络拥塞恶化为系统性瓶颈。 自适应路由(Adaptive Routing):如前所述,未来网络应标准化采用动态路由机制,如数据包喷洒(packet spraying)与拥塞感知路径选择策略(congestion-aware path selection)。这些策略可持续感知当前网络状态并智能调度通信流,有效缓解网络热点,特别是在 all-to-all 与 reduce-scatter 等集合通信操作中,对缓解通信瓶颈效果显著。 高效的容错协议(Efficient Fault-Tolerant Protocols):通过自愈协议、自适应端口冗余和快速故障转移机制,可显著提升系统在故障情境下的鲁棒性。例如,链路级重试机制(link-layer retry)和选择性重传协议(selective retransmission protocols)是提升大规模网络可靠性、减少停机时间的关键组件,能够在面对间歇性故障时确保系统无缝运行。 动态资源管理(Dynamic Resource Management):为更高效地处理混合型工作负载,未来硬件需支持动态带宽调度与流量优先级控制。例如,统一的多任务集群中应将推理任务与训练通信隔离调度,以确保延迟敏感型应用的响应能力。 内存语义通信与内存排序问题的探讨 基于加载 / 存储语义(load/store memory semantics)进行节点间通信,具有高效且对程序员友好的优势。 但当前实现方案普遍受限于内存排序一致性问题。例如,发送端通常需要在写入数据后,执行显式的内存屏障操作(memory fence),再更新标志位以通知接收端,从而确保数据一致性。 这种强排序要求引入了额外的往返延迟(round-trip time, RTT),可能阻塞发出线程,影响写操作重叠能力,最终降低吞吐率。 类似的乱序同步问题,在基于消息语义的远程直接内存访问(Remote Direct Memory Access, RDMA)中同样存在。例如,在 InfiniBand 或 NVIDIA BlueField-3 上,若在常规 RDMA 写操作之后再执行采用数据包喷洒(packet spraying)的 RDMA 原子加(atomic add)操作,也会引入额外的 RTT 开销。 为应对上述挑战,DeepSeek 团队主张从硬件层面引入内建排序保证,以强化内存语义通信中的数据一致性。这种一致性应同时在编程接口层(如 acquire/release 语义)和接收端硬件层实施,从而实现无需额外开销的有序数据交付。 可行路径包括:在接收端缓存原子消息,并通过数据包序号实现顺序处理;但相比之下,基于 acquire/release 的机制更加优雅且具效率优势。 DeepSeek 团队提出一种简单的概念机制 —— 区域获取 / 释放机制(Region Acquire/Release Mechanism, RAR):在该方案中,接收端硬件维护一个用于跟踪内存区域状态的位图,获取与释放操作基于 RAR 地址范围生效。 该机制延伸了最小位图开销下的高效排序保障,由硬件强制执行排序逻辑,完全摆脱发送端对显式屏障指令的依赖,理想情况下实现于网络接口卡(NIC)或 I/O 芯片上。 值得强调的是,RAR 机制不仅适用于基于内存语义的通信场景,也可覆盖基于消息语义的 RDMA 操作,具有广泛的实际适用性。 网络中计算与压缩机制 EP(Expert Parallelism)任务涉及两个关键的全对全通信阶段:分发(dispatch)与合并(combine),它们构成网络级优化的重要着力点。 分发阶段类似于小规模的多播(multicast)操作,需要将一条消息转发至多个目标设备。若在硬件协议层支持自动包复制与多目标转发,将大幅减少通信开销,提升总体效率。 合并阶段则近似于小规模规约(reduction)操作,可通过网络中的聚合机制实现场内计算(in-network aggregation)。然而,由于 EP 合并操作通常规约范围有限、负载不均,实现灵活、高效的网络内规约尚具挑战性。 此外,如前所指出,LogFMT 可在基本不影响模型性能的前提下实现低精度 token 传输。若将 LogFMT 原生集成进网络硬件,可通过提升信息熵密度(entropy density)降低带宽消耗,进一步优化通信性能。依托硬件加速的压缩 / 解压模块,LogFMT 可无缝融入分布式系统,从而显著提升整体吞吐能力。 以内存为中心的架构创新 内存带宽的限制:近年来模型规模呈指数级增长,远超高带宽存储器(High-Bandwidth Memory, HBM)技术的发展速度。这种增长差距使得「内存瓶颈」问题愈发突出,尤其在像 Transformer 这类注意力机制密集的模型结构中尤为严重。 架构性建议:DRAM 堆叠加速器(DRAM-Stacked Accelerators):通过 3D 封装技术,可将 DRAM 芯片垂直集成于逻辑底片之上,从而获得极高的内存带宽、超低访问延迟以及现实可用的内存容量(受堆叠层数限制)。该架构模型在追求极速推理的专家混合模型(Mixture-of-Experts, MoE)中尤显优势,因其对内存吞吐极度敏感。如 SeDRAM 等架构即展示了此方法在内存受限工作负载中的颠覆式性能潜力。 晶圆级集成系统(System-on-Wafer, SoW):晶圆级集成(wafer-scale integration)可最大化计算密度与内存带宽,是应对超大规模模型所需带宽密度的可行途径。
|