边缘计算是指位置比云更靠近应用的运算。但是,这是 300 英里,3 英里还是 300 英尺? 在计算领域,云在理论上具有无限的内存和无限的计算能力。在设备上,理论上只需有足够的计算和内存资源可以捕获数据并将其发送到云即可。两种理论均与事实稍有不符,但我们可以将其用作描述边缘计算不同水平的方法。理论上,云计算资源越来越靠近端点设备或应用,因而存储、内存和计算资源就会越来越少。这些资源消耗的功率也随之降低了。靠近的好处不仅是可以降低功耗,而且可以降低延迟并提高效率。
在该空间中开始出现三种基本的边缘计算架构(图 6)。首先,最接近传统数据中心的是区域数据中心,这些数据中心是战略性放置的云计算服务器群的微型版本,旨在减少延迟,同时却维护所需的计算、存储和内存。许多企业和初创公司都在解决这个问题,但是专门为解决区域数据中心而设计的 SoC,与当今着重解决高性能计算 (HPC) 的传统云计算解决方案几乎没有什么区别。
本地服务器和内部服务器(第二个边缘计算部分),是许多 SoC 解决方案用于解决边缘计算的功耗和连接性需求的地方。如今,软件也有大规模的商业化开发,尤其是采用了更灵活的平台,能够支持 Dockers 和 Kubernetes 之类的容器。前文描述的 Chick-Fil-A 示例就使用了 Kubernetes。对于半导体厂商而言,内部服务器部分中最有趣的部分是在服务器 SoC 附近引入一种芯片组来处理所需的 AI 加速。显然,传统的 AI 加速器位于云计算场中,但略有不同的一类用于边缘服务器 AI 加速器已经被构建出来,因为这是市场有望增长的地方,并且有机会在这一有前途的领域立足。
边缘计算的第三部分包括旨在执行有限功能的聚合器和网关,它们可能仅以最小的延迟和最低的功耗运行一个或几个应用。
这三个部分中的每一个都已定义为支持实际应用。例如,麦肯锡在边缘计算分析中已经确定了 107 个用例4。ETSI 通过其分组规范 MES 002 v.2.1.1 为 5G MEC 定义了超过 35 个用例,包括游戏、服务级别协议、视频缓存、虚拟现实、流量重复数据删除等。这些应用中的每一个都有一些预定义的延迟要求,具体取决于边缘服务器在基础架构中可能存在的位置。OpenStack Foundation 是另一个将边缘计算纳入其工作的组织,期望改善端局重构为数据中心 (Central Office ReArchitected as a Data Center, CORD) 延迟,分布在整个网络中的传统电信端局现在负责托管边缘云服务器。
5G 市场期望实现从边缘设备到边缘服务器再回到边缘设备,往返时间延迟低至 1ms 的用例。实现这一目标的唯一方法是通过本地网关或聚合器,因为到达云全程通常需要 100 ms。2019 年秋天推出的 6G 计划宣布了 10s µS 延迟的目标。
每个边缘计算系统都支持类似的 SoC 架构,其中包括一个网络 SoC、一些存储、一个服务器 SoC,以及现在的一个 AI 加速器或 AI 加速器阵列。每种类型的系统都有自己的延迟、功耗和性能水平。这些系统的一般准则在图 X 中进行了描述。市场在变化,这些数字可能会随着技术的进步而迅速变化。 图 6:比较边缘计算的三种主要 SoC 架构:区域数据中心/边缘云;内部服务器/本地服务器;和聚合器/网关/接入口
边缘计算对服务器系统 SoC 有何影响?
许多边缘计算应用的主要目标是围绕与较低延迟相关的新服务。为了支持较低的延迟,许多新系统都采用了一些最新的行业接口标准,包括 PCIe 5.0、LPDDR5、DDR5、HBM2e、USB 3.2、CXL、基于 PCIe 的 NVMe 以及其他基于新一代标准的技术。与上一代产品相比,这些技术中的每一种都通过带宽改进来降低延迟。
比减少延迟的驱动因素更为突出的是为所有这些边缘计算系统增加了 AI 加速。某些服务器芯片通过 x86 扩展AVX-512 向量神经网络指令 (AVX512 VNNI) 等新指令提供 AI 加速。很多时候,这种额外的指令集不足以提供预期任务所需的低延迟和低功耗实现,所以大多数新系统中还添加了自定义 AI 加速器。这些芯片所需的连接性通常采用带宽最高的主机来实现加速器连接。例如,由于这些带宽要求直接影响延迟,因此 PCIe 5.0 的使用正在迅速扩展,最常见的情况是在具有多个 AI 加速器的某种交换配置中。
CXL 是另一种为降低延迟并提供缓存一致性而专门开发的接口。由于 AI 算法具有异构计算需求和广泛的内存需求,因此务必要确保缓存一致性。
除了本地网关和聚合服务器系统之外,单个 AI 加速器通常无法提供足够的性能,所以需要借助带宽非常高的芯片到芯片 SerDes PHY 扩展这些加速器。最新发布的 PHY 支持 56G 和 112G 连接。支持 AI 扩展的芯片到芯片要求已经完成多种实现。在基于标准的实现中,以太网可能是一种可扩展的选项,现在已经有一些基于这种理念的解决方案。但是,当今许多实现都是通过专有控制器来利用最高带宽的 SerDes。不同的体系结构可能会改变服务器系统的未来 SoC 体系结构,从而将网络、服务器、AI 和存储组件合并到集成度更高的 SoC 中,而不是目前正在实现的 4 种不同的 SoC 中。 图 7:常见服务器 SoC 位于边缘,根据任务数量、功率、延迟和其他需求,具有不同的处理器数量、以太网吞吐量和存储能力
AI 算法正在突破内存带宽要求的极限。例如,最新的 BERT 和 GPT-2 型号分别需要 345M 和 1.5B 参数。显然,不仅需要高容量的内存能力来支持这些需求,还需把许多复杂的应用放在边缘云中执行。为了支持实现这种能力,设计人员正在新的芯片组中采用 DDR5。除了容量挑战之外,还需要存取 AI 算法的系数,以进行非线性序列中并行执行的大量多次累加计算。因此,HBM2e 成为迅速获得采用的一种最新技术,有些芯片实现了单芯片中的数次 HBM2e 实例化。 图 8:通用 AI SoC 具有高速、高带宽、内存、主机到加速器,以及高速芯片到芯片接口,用于扩展多个 AI 加速器
不断变化的目标与边缘计算的划分
如果我们仔细研究边缘计算的不同类型需求,就会发现区域数据中心、本地服务器和聚合网关具有不同的计算、延迟和功率需求。未来的需求显然集中在降低往返响应的延迟,降低特定边缘应用的功率,以及确保有足够的处理能力来处理特定任务上。
服务器 SoC 消耗的功率因等待时间和处理要求而异。新一代解决方案不仅将具有更低的延迟和更低的功耗,而且还将纳入 AI 功能,也就是 AI 加速器。这些 AI 加速器的性能也会根据这些需求的扩展而变化。
但是很明显,AI 和边缘计算的需求正在迅速变化,我们今天看到的许多解决方案在过去两年中已多次取得了进步,并将继续加以改进。现在的性能可以分类,但数量会不断变化,从而提高性能、降低功耗并降低总体延迟。 图 9:新一代服务器 SoC 再加上 AI 加速器,将加快边缘计算速度
结语
边缘计算是实现更快连接性的一个非常重要的方面。它将使云服务更靠近边缘设备。它将降低延迟,并为消费者提供新的应用和服务。它将衍生更多 AI 功能,将其扩展到云以外。它将成为支持未来混合计算的基础技术。在混合计算中,可以根据延迟需求、功率需求以及总体存储和性能需求,在本地、云中或设备上实时做出决策。