新兴存储技术怎样应对边缘AI的挑战，何时迎来春天？

shuszhao · 发表于 2020-11-15 08:15:02

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

人工智能在边缘的崛起对存储系统提出了一系列新的要求。目前的存储技术能否满足这一具有挑战性的新应用的苛刻要求？长远来看，新兴存储技术将为边缘人工智能（edge AI）带来什么？
首先我们要认识到，没有标准的“边缘AI”应用。广义上来讲，“边缘AI”涵盖了除云端外所有支持人工智能的电子系统。它包括“近边缘（near edge）”，即通常所说的企业数据中心和本地服务器。
再远一点，它包含了自动驾驶中的计算机视觉应用；生产制造环境下的网关设备执行AI推理，以检查生产线上产品的缺陷；电线杆上的5G“边缘盒”分析视频流，以用于交通管理等智慧城市应用；5G基础设施也在边缘利用AI实现复杂而高效的波束成形算法。

而在最远的“远边缘（far edge）”，手机等终端设备也能够支持AI功能（如Snapchat过滤器），比如实现对电器的语音控制，对工厂中的物联网传感器节点执行传感器融合，然后再将结果发送到另一台网关设备。
存储器在边缘AI系统中的作用对大多数AI应用都是相同的，即存储神经网络权重、模型代码、输入数据和中间激活操作等。为保持效率，这些工作负载需要加速处理以最大化AI计算能力。因此，对边缘AI系统中的存储容量和带宽通常都要求很高。不过，不同应用的需求多种多样，而且涵盖多种因素，如尺寸、功耗、低压运行、可靠性、散热/冷却考虑以及成本等等。

边缘数据中心

边缘数据中心是一个关键的边缘市场。其用例涵盖医学成像、研究和复杂的财务算法，其中涉及防止隐私被上传到云端。另一个重要领域是自动驾驶，但延迟阻碍了AI在这一领域的发展。这些系统采用的存储与其它应用服务器中的相同。
“在需要开发和训练AI算法的应用中，采用低延迟DRAM以实现快速、字节级的主存储器至关重要，” 存储产品设计与开发公司Smart Modular Technologies的方案架构师Pekon Gupta表示，“大数据集需要大容量的RDIMM或LRDIMM；系统加速则需要NVDIMM，我们用这些存储器进行写操作缓存和检查点，以替代速度较慢的SSD。”
电信运营商通常将计算节点放置在靠近终端用户的位置。
Gupta说：“我们意识到，这些电信边缘服务器将能够执行越来越复杂的算法。”因此，“服务提供商正在为这些边缘服务器添加更多存储和处理能力，例如采用RDIMM、LRDIMM，以及像NVDIMM之类的高可用持久性存储技术。”
Gupta认为，英特尔的3D-Xpoint非易失性存储器Optane是服务器AI应用的良好解决方案，其性能介于DRAM和Flash之间。
Gupta说：“Optane DIMM和NVDIMM都被用于AI加速。”NVDIMM为AI应用加速提供了极低延迟的分层、缓存、写缓冲和元数据存储能力。Optane数据中心DIMM用于存内数据库加速，这需要数百GB至TB的持久性存储与DRAM结合使用。尽管它们都是AI / ML加速应用的持久性存储解决方案，但却各有不同的独立用例。”
在EE Times采访中，英特尔Optane产品营销总监Kristie Mann表示，Optane正在逐步赢得服务器AI领域的应用市场。
Mann说：“我们的客户已经使用Optane非易失性存储来助力其AI应用，成功推动了电子商务、视频推荐引擎和实时财务分析等应用的发展。由于可用容量增加，我们还看到了向存内应用的转变趋势。”
DRAM的高价也使Optane逐渐成为更有吸引力的选择。配置两个Intel Xeon可扩展处理器和Optane非易失性存储器的服务器可提供多达6 TB的存储空间，足以满足需要大量数据存储的应用场景需求。
“DRAM仍然是最受欢迎的，但从成本和容量的角度来看，有其局限性，”Mann说。“由于成本、容量和性能方面的优势，Optane非易失性存储和Optane SSD之类的新型内存和存储技术正在逐步替代DRAM。Optane SSD尤其可以为HDD和NAND SSD数据提供强大的缓存功能，以持续馈送AI应用数据。”
Mann补充说，Optane相比其它尚未完全成熟的新兴存储器相比也具有一定优势。

GPU加速

对高端边缘数据中心和边缘服务器应用来说，GPU之类的AI计算加速器越来越受到青睐。除了DRAM，其内存选择还有GDDR和HBM。GDDR是一种专门用于高带宽GPU的DDR SDRAM，而HBM采用了相对较新的芯片堆叠技术，可以将多个存储裸片与GPU本身放在同一封装中。
GDDR和HBM两者都是为AI应用所需的极高内存带宽而设计的。
对于最苛刻的AI模型训练，HBM2E可以提供3.6 Gbps的速度以及460 GB / s的内存带宽（两个HBM2E叠加可提供接近1 TB / s的带宽）。这是目前性能最高的存储器，而且体积小、功耗低。GPU领导者英伟达在其所有数据中心产品中都使用了HBM。
Rambus公司IP内核产品营销高级总监Frank Ferro表示，GDDR6也用于边缘AI推理应用。GDDR6可以满足边缘AI推理系统的速度、成本和功耗要求。其速度可达18 Gbps，带宽可达72 GB/s。而拥有四个GDDR6的DRAM可提供接近300 GB/s的存储带宽。
“GDDR6主要用于AI推理和ADAS应用”Ferro补充道。
若对比GDDR6和LPDDR，Ferro认为LPDDR更适用于边缘或终端的低成本AI推理。英伟达在其大多数非数据中心边缘解决方案中（从Jetson AGX Xavier到Jetson Nano），均采用了LPDDR。
Ferro说：“LPDDR4的带宽限制为4.2 Gbps，LPDDR5的带宽限制为6.4 Gbps。随着存储器带宽需求的增加，我们将看到越来越多使用GDDR6的设计。存储带宽的差距推动了GDDR6的需求。”
尽管GDDR是为了与GPU配合使用而设计，但其它处理加速器也可以利用其带宽优势。Ferro重点介绍了Achronix Speedster7t，这是一款基于FPGA的 AI加速器，用于推理和一些低端训练。
“HBM和GDDR存储器在边缘AI应用中都有机会，”Ferro说。“HBM将继续用于边缘应用。尽管HBM拥有众多优势，但由于采用了3D技术和2.5D制造工艺，成本仍然较高。鉴于此，GDDR6是综合考虑成本与性能后的折衷选择，尤其适合网络AI推理应用。”
HBM适用于高性能数据中心AI ASIC，如Graphcore IPU。尽管它性能一流，但其价格对某些应用而言仍高得离谱。
高通就是倾向于GDDR6的公司之一，其Cloud AI 100芯片专门用于边缘数据中心、5G“边缘盒”、ADAS /自动驾驶和5G基础设施中的AI推理加速。
高通计算和边缘云业务部总经理Keith Kressin说：“对我们而言，使用标准的DRAM而非HBM至关重要，因为我们希望降低物料成本。我们希望使用可以从多个供应商处购买的标准组件。我们的客户有些想要在一个芯片上实现所有功能，有些则希望跨芯片实现功能。相同的是，他们都希望将成本控制在合理范围内，而不会追求HBM或其它更独特的存储器。
他继续说道：“在AI训练中，确实会存在跨多个芯片的大型模型，但对Cloud AI 100面对的推理市场来说，很多模型都更加本地化。”

远边缘（Far edge）

在数据中心以外，边缘AI系统通常专注于推理，但也有一些例外值得注意，例如联合学习（federated learning）和其它增量训练技术。
有一些针对低功耗应用的AI加速器采用存储器进行AI处理。推理基于多维矩阵乘法，适用于具有一系列存储单元的模拟计算技术，其中存储单元被用来执行计算。Syntiant的产品采用这种技术，面向消费类电子产品的语音控制，而Gyrfalcon的产品则用于处理智能手机的相机效果AI推理。
再举一个例子，专门从事智能处理单元开发的Mythic使用闪存单元的模拟操作，可以在单个闪存晶体管上存储8-bit整数值（一个权重参数），这使其密度比其它内存计算技术要高很多。这种可编程闪存晶体管可用作可变电阻器，其输入为电压，输出为电流。再结合ADC与DAC，就可以得到一个高效的矩阵乘法引擎。
Mythic的IP采用在补偿和校准技术，可以消除噪声并实现可靠的8-bit运算。

登录/注册后可看大图
Mythic采用闪存晶体管阵列来构建密集型乘法累加引擎
除了存内运算器件以外，ASIC在特定的边缘利基市场中也很流行，尤其是在低功耗和超低功耗系统中。ASIC的存储系统采用了几种存储类型的组合，其中分布式本地SRAM最快、最节能，但占用空间较大。在芯片上配置单个大容量SRAM可以减少空间，但会带来性能瓶颈。片外DRAM较便宜，但功耗较高。
Flex Logix首席执行官Geoff Tate表示，在分布式SRAM、大容量SRAM和片外DRAM之间为其InferX X1芯片找到最佳平衡点，需要进行一系列性能仿真。其目的是最大化单位成本的推理吞吐量，这需要综合考量芯片尺寸、封装成本和DRAM数量。
“最佳配置为一个x32 LPDDR4 DRAM、4K MAC（933MHz时算力为7.5 TOPS），以及约10MB的SRAM。”他说道。SRAM速度较快，但与DRAM相比价格昂贵。若采用台积电的16nm工艺技术，1MB SRAM占用面积约为1.1 mm2。“而我们的InferX X1占板面积仅为54 mm2，而且得益于我们的体系架构，DRAM访问与计算在很大程度上重叠，因此没有性能折中问题。对于大型模型来说，配置单个DRAM比较恰当，至少对我们的架构是如此。”Tate认为。
Flex Logix芯片将用于需要实时操作的边缘AI推理应用，包括低延迟流媒体视频分析。这类应用包括ADAS系统、安全录像分析、医学成像和质量保证/检查等。
那么在这些应用中，哪种类型的DRAM可以与InferX X1一起工作呢？
“我们认为LPDDR会比较适合，单个DRAM可以提供超过10GB/s的带宽，而且有足够的bit位来存储权重/中间激活，”Tate说。“而其它任何DRAM都需要更多芯片和接口，并且需要购买更多用不上的bit位。”
这里是否存在任何新兴存储技术的机会？
Tate补充说：“使用任何新兴存储都会使晶圆成本急剧上升，而SRAM却是“免费”的，除了占用芯片空间外。随着经济效益的提升，临界点也可能发生变化，新兴存储总有发挥作用的一天。”

新兴存储器

不管规模效益，其它存储器类型未来仍将为AI应用带来可能性。
MRAM（磁阻RAM）通过外加电压控制的磁体方向来存储数据的每个bit位。如果电压低于翻转bit位所需的电压，则可能只有一位翻转。我们不希望存在这种随机性，因此采用更高电压驱动MRAM来预防这种情况发生。尽管如此，某些AI应用仍可以利用这种固有的随机性（可以将其视为随机选择或生成数据的过程）。
Gyrfalcon的器件已将MRAM的这种随机功能应用于实验中，它可将所有权重和激活精度降低到1位，从而大大降低远边缘应用的计算和功耗要求。根据网络重新训练的方式，有可能需要进行精度的权衡取舍。通常，尽管降低了精度，神经网络仍可以可靠地运行。
Spin Memory公司产品副总裁Andy Walker表示，“二元神经网络（BNN）的独特之处在于，即使一个数字是-1或+1的确定性减小了，它仍可以可靠地运行。我们发现，即便引入被错误写入的存储位“误码率”降低了确定性，BNN仍然能够以较高的精度运行。”
MRAM可以在低电压电平下自然地以受控方式引入误码率，在保持精度的同时进一步降低功耗要求。其关键在于确定最低电压和最短时间下的最佳精度。Walker指出，这意味着最高能效。
尽管这项技术也适用于更高精度神经网络，但它尤其适用于BNN，因为MRAM单元具有两种状态，恰好与BNN中的二值状态相匹配。
Walker认为，在边缘使用MRAM是其另一个潜在应用。
他说：“对于边缘AI，MRAM能够在不要求高性能的应用中以较低的电压运行，但提高能效和存储器耐用性非常重要。此外，MRAM固有的非易失性不需电源也可保存数据。
还有一种“统一存储”，这种新兴存储既可以充当嵌入式闪存，又可以替代SRAM，在节省芯片面积的同时又避免了SRAM固有的静态功耗。
尽管Spin Memory的MRAM即将商用，但BNN的具体实现将在基本MRAM单元的某种变体上效果最好。因此，目前它仍处于研究阶段。

神经拟态ReRAM

ReRAM是适用于边缘AI应用的另一种新兴存储。米兰理工大学（Politecnico Milan）最近利用Weebit Nano的氧化硅（SiOx）ReRAM技术进行了研究，其结果显示出ReRAM在神经拟态计算上有不错的前景。ReRAM为神经网络硬件增加了可塑性。也就是说，它可以随条件的改变而进化，这是神经拟态计算的一种可贵品质。
目前的神经网络如果不忘记之前的训练任务，就无法继续学习，而大脑却可以很容易地做到这一点。用AI术语来说，这是“无监督学习”，其算法在无标记的情况下对数据集进行推理，在数据中寻找自己的模式。最终的结果可能就是，ReRAM使能的边缘AI系统可以就地学习新任务，并适应其周围环境。
总体而言，存储器制造商正在开发新的技术，以提供满足AI应用所需的速度和带宽。无论是与AI计算在同一芯片上、在同一封装中，还是在不同的模块上，都有很多种类型的存储器可用于边缘AI应用。
虽然针对边缘AI的存储系统的具体特性取决于具体应用，但事实证明，GDDR、HBM和Optane在数据中心非常受欢迎，而LPDDR与片上SRAM则适用于端点应用。
新兴存储需要超越目前硬件能力的先进神经网络研究，才能实现未来高效节能的类脑系统。

wlk1986 · 发表于 2020-11-15 08:50:15

sea12103 · 发表于 2020-11-15 08:59:52

sun5304 · 发表于 2020-11-15 09:00:43

red_chen · 发表于 2020-11-15 09:11:34

的确需要的存储能力要提高

zengfanlong · 发表于 2020-11-15 09:11:57

rain-fine · 发表于 2020-11-15 11:48:30

杨凯 · 发表于 2020-11-15 11:58:48

地沟油 · 发表于 2020-11-15 16:02:16

huangweiqiao · 发表于 2020-11-16 08:05:55

		自动登录	找回密码
密码			立即注册

[零组件/半导体] 新兴存储技术怎样应对边缘AI的挑战，何时迎来春天？

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

终身成就奖

特殊贡献奖

原创先锋奖

金点子奖

优秀斑竹奖

宣传大使奖

社区居民