[IT/数码] AI智算中心Scale-Out网络的演进及GSE的实践

[复制链接]
查看7 | 回复0 | 前天 22:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×

智算集群中节点间网络的通信效率直接影响集群的整体吞吐量和性能。AI大模型训练业务的网络流量具有以下特征:流数量少(低熵)、单流带宽高(大象流)、同步突发(Incast)等,这对传统基于以太网的IP网络架构提出了两大挑战:
挑战1:传统基于流的等价多路径路由(ECMP)负载均衡技术在流数量较少时存在局限性,会导致交换网络中出现流量极化现象,从而造成链路负载不均。具体表现为部分链路拥塞而其他链路利用率不足,这会降低整体网络吞吐量。
220413acfd7aaf.png
挑战2:在集群节点通信过程中,当源端在不了解目的端接收能力的情况下持续发送数据,会形成分布式训练中典型的多对一通信模式。这种模式产生的大量Incast流量将导致网络设备队列缓存出现瞬时突发,进而引发拥塞甚至丢包问题,最终造成应用时延增加和吞吐量下降。
2204140340e4f9.png
因此,如何构建适配大模型算力的高性能网络,突破现有Scale-Out架构的瓶颈,已成为智算时代亟待解决的关键技术难题。
   Scale-Out网络的优化探索
为应对当前网络挑战,人们在探索过程中提出了多种优化思路。根据底层转发优化处理方式的不同,这些方案可归纳为两条发展路线:优化路线与重构路线。
220414782db384.png
1、基于RoCE的优化
在传统基于融合以太网的远程直接内存访问(RoCE)技术的基础上进行创新优化,通过引入新技术可以改进智能计算Scale-Out网络架构。该方案保持网络底层转发逻辑不变,使现有网络更好地适配算力流量特征,有效降低Scale Out网络对计算性能的制约影响。
方式1:纯网络侧的优化。纯网络侧的优化是设备厂商倡导的技术方案。该方案是基于网络设备技术升级的无损网络优化方案,主要包括:(1)通过快速显式拥塞通知(ECN)功能降低队列深度带来的时延影响;(2)采用AI ECN智能调优技术简化复杂的水线参数配置;(3)利用智能全局负载均衡提升少流场景的均衡性能。此类创新技术方案持续涌现,推动着网络性能的不断提升。
方式2:端网协同的优化。端网协同优化是互联网厂商倡导的技术方案,其核心在于通过终端侧的性能优化及网络状态感知,动态协调计算能力与网络资源,实现系统整体效能的提升。例如:阿里μFab方案采用智能网络调度机制,通过μFab-E网卡主动发送探测报文(probe),由μFab-C交换机动态反馈路径带宽和时延信息,基于这些网络状态数据实现网卡级智能限速及动态路径选择;阿里高精度拥塞控制算法(HPCC)与谷歌CSIG(一种用于网络拥塞控制的协议)方案采用端网协同机制,通过网侧随路采集拥塞状态信息,实现端侧流控参数的精细化调优;腾讯的星脉方案,基于多轨异构亲和部署策略,结合自研的拓扑感知集合通信库(TCCL),显著提升网络通信性能,已在多个场景成功落地。
2、网络架构重构
RoCE的优化建立在现有网络基础之上,这种方式仅能缓解算力与网络之间的冲突,并不能从根本上解决问题,因此称不上是最优解决方案。为彻底摆脱网络困境,业界各方希望构建全新的网络及底层转发机制,突破无损以太网的性能瓶颈,实现无阻塞、高带宽、超低时延,以契合AI与高性能计算对新型网络的需求。在重构路线方面,有两大主流技术方案在业内具备广泛的影响力:
(1)由全球多家颇具影响力的企业主导成立的超以太网联盟(UEC)。该联盟专注于高性能网络,对全通信栈开展深入优化工作,积极整合全行业资源,全力投入并贡献力量。其核心目标在于有效解决大规模数据传输过程中存在的尾部延迟等棘手问题,进而达成最佳的算力性能表现与网络利用率。
(2)由中国移动发挥牵头作用,联合多家中国厂商共同提出的全调度以太网(GSE)。此方案原创提出新型以太网转发和调度机制,将工作重点置于解决网络拥塞以及负载均衡等关键问题上。在打造新一代网络的架构演进中,GSE技术已进入实践阶段。自2023年5月白皮书首次提出GSE概念以来,通过行业各界的通力合作,该技术在标准制定、设备研发等关键领域均取得显著突破。
   GSE网络的实践
GSE关键技术:为应对智算网络流量特性所引发的网络拥塞难题,GSE引入两项关键技术:基于包容器的负载均衡技术以及端到端拥塞避免技术。
1、基于包容器的负载均衡技术
在负载均衡策略的抉择上,GSE采用喷洒技术,并提出以等长包容器作为喷洒单位的方案。这一举措不仅确保了负载分担的均匀性,显著降低了数据传输中的乱序程度,减小了后续保序操作所需付出的代价。由于以太网支持变长包长传输,若仅采用简单的逐包喷洒方式,当包长可变时,极易导致负载分担不均衡。为化解因变长包引发的喷洒分担不均难题,业内运用切包与拼包两项技术加以应对。
切包技术是指把数据包切割成等长信元后进行喷洒操作,在目的端再对信元进行重组以恢复数据包并实现转发。不过,该技术既要执行信元切分,又要进行组包,实现过程颇为复杂,并且每个信元都需要额外添加信元头,这无疑会造成较大的带宽开销。
22041487084342.png
拼包技术的运作机制是,将多个数据包组合成等大小的聚合帧后进行喷洒传输,在目的端对聚合帧解帧,还原出原始数据包并予以转发,具体过程如图5所示。
220414ee1728e5.png
相较于切包技术,拼包技术在实现上更为简易,多个数据包只需共用一个聚合帧头,这样可以显著降低带宽开销。然而,拼包过程会引入不确定的等待时长,这就导致转发时延抖动情况难以确定。在对同步性要求较高的智算场景中,这种不确定性会对整体性能产生负面影响。
GSE融合了逐包喷洒低时延以及拼包交换高均衡性的优势,引入了基于报文容器(PKTC)的转发与负载均衡机制,具体如图6所示。该机制会把发往相同目的地的数据包,整合组装成“定长”的虚拟容器来进行转发操作。在这一过程中,同一容器内的数据包均被标记相同标识,确保它们沿着相同路径转发,以此实现保序传输。在进行负载均衡调度时,该机制以报文容器作为分担单位。值得注意的是,这里的报文容器属于逻辑概念,并非是实体,因而在对数据包进行组装与还原的过程中,无需额外的硬件投入。每个数据包仅需添加报文容器标识即可。与切包喷洒技术中每个信元都要添加信元头的做法相比,该方法极大地降低了带宽损耗,达到更好的效果。
220415132ffa8c.png
2、端到端拥塞避免技术
为有效应对Incast流量拥塞问题,GSE采取了发送方预请求机制。发送数据前,发送方需先向接收端请求发送权限,接收端则依据自身接收能力,向发送方授予相应信用(即授权)。这一机制确保发送方的数据发送量不会超出接收端的接收能力,以此实现网络拥塞的有效避免。
GSE基于图形处理器(GPU)间实际流量状况,动态构建虚队列,以此减少网络设备所需的队列数量资源。虚队列的调度依据接收端所授予的权限来执行。如此一来,来自不同源设备、发往同一目的端口的多个虚队列,能够依据目的端口的发送能力,进行统一的发送调度,进而达成整个网络的全局调度效果。GSE将这一技术命名为动态全调度队列(DGSQ)。借助DGSQ技术,GSE网络得以实现端到端的拥塞避免,具体原理如图7所示
220415fb95a2bf.png
当网络出现Incast拥塞时,该方案通过将拥塞流量分布式缓存在参与传输的多个源端设备上,实现了全网缓存资源的协同利用。相较于传统方案仅能在目的端设备缓解Incast突发流量,这种分布式缓存机制使得网络整体缓存效率得到数量级提升,从而更有效地吸收突发流量。采用DGSQ技术后,当源设备本地缓存达到预设阈值时,系统会通过本地PFC机制直接通知源GPU降速。这一方案避免了传统方法中PFC信号需从目的端经Leaf-Spine网络反向传输的问题,从而有效防止了Fabric网络中可能引发的PFC风暴及其导致的网络性能骤降。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

hdy

836

主题

350

回帖

866

积分

二级逆天

积分
866