[IT/数码] 光子网络用于人工智能应对现代计算挑战

[复制链接]
查看9 | 回复0 | 4 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×
引言

人工智能计算性能正以每九个月翻一番的速度快速增长。这种快速扩张带来了显著的挑战,特别是在网络基础设施方面。传统的电子分组交换(EPS)网络在功耗和扩展性方面面临困难,尤其是随着人工智能系统规模不断扩大。光子网络,特别是光学电路交换(OCS)技术,为训练和推理工作负载提供了有希望的替代方案。本文探讨光子网络在人工智能系统中面临的挑战和机遇[1]。
003919a255f4fa.png
人工智能性能快速发展

人工智能性能正以惊人的速度扩展,约每九个月翻一番(相当于每年增长2.5倍)。这种指数级增长在领先的人工智能超级计算机中表现明显,从早期的GPT-3集群到当前的El Capitan和xAI Colossus等系统。通常使用的性能指标是16位FLOP/s(每秒浮点运算次数),从2019年的约10^17增长到2025年领先系统的10^20以上。
003924863d2bfc.png
图1:人工智能性能每9个月翻一番 - 该图展示了从2019年到2025年人工智能计算性能的指数级增长,主要的人工智能超级计算机按首次运行日期排列,性能以16位FLOP/s为单位,呈现明显的上升趋势。

人工智能能力的这种显著增长有一个关键限制因素:功耗。正如英伟达CEO黄仁勋所指出的,"人工智能收入受功率限制"。推理能力的扩展直接受到可用功率的限制,影响从吞吐量到响应时间的各个方面。公司必须优化每瓦每秒token数量,以最大化基础设施投资回报。
003928b7f2c508.png
图2:黄仁勋 – "人工智能收入受功率限制" - 该图展示了来自NVIDIA GTC的演示,表明人工智能推理能力的扩展受到功率限制,影响了吞吐量、每秒token处理能力及最终的收入增长。
训练与推理:不同的网络需求

人工智能处理单元(xPUs)根据用于训练还是推理有不同的网络需求。像NVIDIA GB300、AWS Trainium2和AMD MI325X这样的训练处理器需要每秒多个太比特的网络吞吐量,而AWS Inferentia2、GroqCard LPU和Google Ironwood等推理处理器通常需要较少的带宽。
0039335842b74a.png
图3:xPUs和网络I/O - 该图对比了训练处理器(如NVIDIA GB300、AWS Trainium2和AMD MI325X)与推理处理器(如AWS Inferentia2、GroqCard LPU和Google Ironwood)的网络带宽需求,显示两者之间存在显著(2-7倍)的带宽需求差异。

训练和推理工作负载的网络需求有实质性差异。训练网络优先考虑每兆瓦完成时间,处理遵循固定计算图的长期工作负载。这些网络同时采用规模扩展(数十个节点)和规模扩大网络(10,000-100,000个节点)的分布式方法。训练操作通常在较长时间内使用相同的计算图,创建新模型或调整现有模型。

推理网络注重每千瓦token数,处理非常短暂且模式较不确定的工作负载。现代方法如专家混合(MoE)和推理系统可能在单个LLM提示的整个生命周期内触发可变的网络连接模式。工作负载特性基本不同,任务持续时间更短,通信模式变化更大。
0039362feba7fe.png
图4:训练和推理:网络需求 - 该图详细比较了训练和推理工作负载的网络需求,强调集体通信对两种工作负载都非常重要。训练工作重视每兆瓦完成时间,推理工作强调每千瓦token数,两者都需要高度同步的无损网络连接。

两种网络类型都受益于"完全连接的确定性同步无损网络,具有快速重配置能力",这使得"零"集体通信尾部延迟成为可能。这种同步性对于确保人工智能工作负载能够高效进行,避免因通信过程中的落后节点而延迟非常重要。
光学电路交换(OCS)网络:未来趋势?

谷歌已开始在数据中心部署光学电路交换机,认识到未来电子交换机在功率效率方面的收益递减。图表显示,随着速度超过200Gbps,电子交换机和相干WDM光学器件都面临功率效率挑战。这一限制为提供更好功率扩展的替代交换技术创造了机会。
00394279f74b40.png
图5:谷歌在数据中心部署OCS - 图表左侧展示了电子交换机和光学器件功率效率随速度增加的收益递减情况,右侧为OCS在数据中心网络中的实施架构,表明在聚合层使用OCS可实现10ms级的重配置时间。

谷歌专门为机器学习实施了OCS,为其TPU v4集群创建了超立方体OCS架构。该系统使用48个128端口光学电路交换机连接跨64个机架的4,096个TPU,创建了直接和间接拓扑结构的混合。每个机架包含64个具有3D环形连接的TPU,使用光链路,OCS交换机支持机架间通信路径的灵活配置。
003946ed68997a.png
图6:谷歌在机器学习中部署OCS - 图示展示了谷歌的超立方体OCS架构,用于连接ML 4096 TPU集群(64个机架,每个机架64个TPU),采用3D环形连接拓扑,每个方向(X、Y、Z)使用专用的OCS交换机组。
光学电路交换的优势与挑战

当前OCS技术提供了几个优势:保证连接和服务质量、消除交换机内缓冲/排队、降低功耗、有效的拓扑重配置、增强故障恢复和功率减少能力。这些优势使OCS特别适合人工智能工作负载所需的确定性、同步通信模式。

然而,仍存在显著挑战。大多数当前OCS实现存在重配置时间慢(毫秒而非微秒)、网络调度计算慢,以及标准收发器在交换重配置后需要长时间重新锁定等问题。这些限制严重影响了OCS在需要频繁网络重配置场景中的实际应用。
0039521bac0091.png
图7:光学电路交换(OCS)网络的优缺点 - 左侧列出了OCS的主要优势(保证连接和服务质量、无缓冲需求、低功耗等)和缺点(重配置时间慢、网络调度计算慢等);右侧图表展示了不同OCS技术的交换重配置周期,从纳秒级(PULSE、Sirius)到毫秒级(Google部署)不等。

研究表明,由于重配置时间慢(数十毫秒),当前最先进的OCS网络可能导致与具有同等端到端带宽的EPS网络相似或更差的集体完成时间。这一性能差距必须解决,OCS才能充分实现其在人工智能网络中的潜力。
00395599aff516.png
图8:最先进OCS的挑战 - 性能比较图显示了不同网络拓扑(SuperPod、2D-Torus、TopoOpt、Ramp)的完成时间,表明当前慢速OCS网络(如TopoOpt)可能导致与同等端到端带宽的EPS网络相似或更差的集体完成时间。
光子人工智能网络的未来发展

为使OCS网络取代传统电子分组交换网络,必须克服几个技术障碍。光学交换重配置需要匹配EPS粒度(亚微秒级);收发器必须非常快速地重新锁定以维持吞吐量;网络需要处理额外的光学损耗和信噪比劣化;高度同步的网络操作必不可少;需要超快速网络控制和重配置;与NCCL等软件栈的集成必须无缝;高可靠性和弹性对生产部署必不可少。

然而,潜在优势非常可观。光子网络有望提供高度确定性的网络性能,显著降低功耗,通过消除大部分收发器和所有EPS交换机提高可靠性,在训练和推理性能方面带来重大改进,以及合并规模扩展和规模扩大网络的极端规模和带宽能力。这些优势可能从根本上改变大规模人工智能系统的经济性和能力。

Oriole Networks是一家2023年成立的伦敦公司,率先开发这些光子网络技术,以加速低碳世界中的人工智能。凭借重要资金和分布在多个全球地点的工程人才,该公司正努力克服这些挑战,实现光子网络在人工智能系统中的潜力。该公司建立在伦敦大学学院十年的研发工作基础上,将学术研究转化为商业生产。

光子网络技术代表了人工智能系统网络架构的一个关键创新方向。通过解决当前的技术挑战,光学电路交换有望在降低功耗的同时提供更高的网络性能,满足日益增长的人工智能计算需求。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

hdy

600

主题

345

回帖

651

积分

二级逆天

积分
651