FPGA、可编程HPC—未来就靠你们了！|FPGA|CPLD|DSP - 逆天PCB论坛

离线至芯陈老师

二级逆天

性别:: 人妖

发帖: 365

金币: 0

提示：会员销售的附件,下载积分 = 版块积分 + 销售积分只看楼主倒序阅读使用道具 0楼发表于: 2020-04-11

FPGA为高性能计算和机器学习提供了一种早期的架构专门化选项。

体系结构专门化是继续改进性能的一种选择，以克服摩尔定律中减缓技术步伐所带来的限制。无论是在功耗还是性能方面，使用特定于应用程序的硬件来加速应用程序或其中一部分，并允许使用更高效的硬件作为支撑。

考虑到为单个应用程序或工作流构建计算硬件的固有成本，这种策略不能用于所有应用程序。然而，通过将挑战组合成组，或者识别能够从加速中获益的关键工作负载或代码，很可能成为提高应用程序性能的一个重要部分。

一些应用程序非常适合于GPU或FPGA等技术，这些技术可以通过实现加速技术来提高性能。GPU加速或架构专业化并非新概念，一些专家预测，它们将越来越普遍地用于提高性能，并降低未来系统的能源成本。

劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)计算机体系结构小组的研究人员正在研究FPGA，通过密度函数理论编写代码来演示潜在改进的可能性。该项目名为“DFT Beyond Moore’s Law”:高性能计算未来的极端硬件专业化发展（Extreme Hardware Specialization for the Future of HPC），旨在展示在没有摩尔定律持续扩展的情况下，为高性能计算应用构建具有潜力的未来架构。

最终的目的是为特定于应用程序的集成电路(ASIC)而开发的计划，但最初将在FPGA上实行。虽然这个项目还在进行中，但它演示了如何在FPGA技术上实现适合高度并行执行的特定代码或代码段，FPGA技术可以补充未来的CPU或基于CPU/ GPU的计算系统。

寻找宇宙中的暗物质

欧洲核子研究中心(CERN)正在使用Xilinx FPGA加速推理和传感器预处理工作负载来搜索暗物质。该项目背后的研究人员正利用FPGA和CERN其他计算资源，以极快的速度处理大量高能粒子物理数据，以寻找宇宙起源的线索。因此这需要实时过滤传感器数据，以识别可能包含暗物质和其他物理现象存在证据的新粒子结构。

来自欧洲核子研究中心、费米实验室、麻省理工学院、伊利诺斯大学芝加哥分校和佛罗里达大学的物理学家和工程师组成了一个不断壮大的团队，由麻省理工学院的Philip Harris和费米实验室的Wilson研究员Nhan Tran领导。他们准备用一种灵活的方法来优化他们正在欧洲核子研究中心工作的紧凑型μ子电磁(CMS)实验的定义事件过滤器。在CMS检测器中高达150兆字节/s的高数据速率下进行实时处理事件，但是触发器过滤器算法的开发阻碍了团队进展。

Harris解释了这个项目背后的意义:“我们是在和几个使用微软brainwave团队的FPGA进行机器学习的工程师交谈后受到启发的，并且在Github上看到了一些使用Xilinx的Vivado HLS工具编写的非常简单的机器学习推理代码。这两者的结合让我们非常兴奋，这让我们看到了hls4ml[1]项目实现快速基于ml事件触发器的潜力。”

该团队开始开发和测试一个基于Xilinx Vivado HLS的工具流，这将缩短为CMS一级触发器创建机器学习算法所需的时间。hls4ml工具有许多可配置的参数，使用户能够为他们的应用程序定制延迟、启动间隔和资源使用权衡的空间。在团队创建hls4ml之前，物理学家必须手工创建简单的触发算法，然后工程师将用Verilog或VHDL编写FPGA程序。这是一个非常耗时的过程，可能需要几个月。

通过hls4ml提高抽象级别，物理学家可以使用Keras、TensorFlow或PyTorch等大数据行业标准开源框架执行模型优化。使用这些框架输出hls4ml产生FPGA加速固件，这种自动化大大节省了时间。Tran说:“在物理学领域，电气工程师是一种稀缺人才。我们可以让物理学家来开发算法，电气工程师来设计系统，这样我们的情况就会越快越好。因此，让物理学家更容易理解机器学习算法，这很有帮助。这就是为什么我们开始使用HLS，而不是Verilog或VHDL[2]级别的原因。现在，我们可以在一天之内在FPGA上完成从培训到测试的整个流程。”

Harris解释了物理学家在不知道暗物质实际是什么样子的情况下，如何利用机器学习算法来寻找暗物质，以训练神经网络。Harris说:“我们对暗物质的样子做了一个假设，并写下了一张清单，上面列出了我们对暗物质的所有预期特征。”

我们正在培训一个非常普通的署名。例如，暗物质，就其本质而言，会在探测器中丢失能量，因为它会直接穿过探测器。如果我们能用机器学习技术优化性能来理解缺失的能量，这也会提高我们对暗物质的敏感度。”Tran说。

该团队使用多层感知器神经网络，以有限的层数来满足触发器100纳秒的实时性能要求。除了人工智能推理，FPGA还提供传感器通信、数据格式化和预滤波计算所需的输入原始传感器数据，然后再进行推理驱动触发;从而加快了整个探测器的应用。

Tran总结了hls4ml项目的优点。“在我们的日常工作中，它真的让我们能够通过触发器在实验的各个阶段进行机器学习。”在此之前，你必须考虑一个非常具体的应用程序，并为VHDL或Verilog开发模型和固件。现在，你可以从更广泛的角度来思考如何改进物理，无论是低级别的撞击聚集在某个量热计中一直到获得完整的事件并优化特定的拓扑。它让机器学习在整个实验中更快地传播和采用。”

Project Catapult

Project Catapult是微软研究院提出的一项开创性计划，旨在提供一种可大范围提高数据中心负载性能和能源效率的开创性方案，该计划希望能通过现场可编程门阵列(FPGA)的帮助来得以实现目标。它本质上是在云中部署FPGA，将CPU连接，提供互连的可编程硅的可配置计算层。

该项目始于2010年，当时由Doug Burger和Derek Chiou领导的一个小团队开始探索其他架构和专用硬件，如GPU、FPGA和ASIC。

该团队开发了一个基于FPGA的云计算系统，与使用CPU或基于GPU的系统完成相同任务相比，该系统具有更高的能源效率。FPGA也提供了这种好处，同时不需要与开发自定义ASIC相关的相同级别的风险。

Project Catapult的董事会级架构被设计得非常灵活。FPGA可以充当本地计算加速器、内联处理器或分布式计算的远程加速器。在本地设计中，FPGA位于数据中心的顶层(ToR)网络交换机和服务器的网络接口芯片之间。网络流量通过FPGA进行路由，FPGA甚至可以对高带宽的网络流量进行行速率计算。

使用这种加速结构，他们可以部署分布式硬件微服务(HWMS)，灵活地利用可伸缩的FPGA数量(从1个到数千个)。相反，云级别的应用程序可以利用这些微服务的可伸缩数量，而不需要了解底层硬件。通过将这种方法与部署在datacentres的近100万个Intel FPGA相结合，微软已经构建了一个类似超级计算的基础设施，它可以以令人难以置信的性能和能源效率计算特定的机器学习和深度学习算法。

FPGA能否在加速下一代深度神经网络方面击败GPU ?

在今天的大数据时代，企业和消费者被各种来源的海量数据淹没，包括商业交易、社交媒体以及传感器或机器对机器数据的信息。这些数据有多种格式，从传统数据库中的结构化数字数据到非结构化文本文档、电子邮件、视频、音频和金融交易。

对这些数据的有效分析是产生洞察力和驱动更好的决策制定和机器学习(ML)算法的关键，这些算法在现代数据分析中被广泛使用。深度卷积网络(DNN)作为一种特殊的ML算法，在图像分类中得到了广泛的应用。

当前的一代DNN，如ALEXNET和VGG，依赖于密集浮点矩阵乘法(GEMM)，这种算法具有规则的并行性和较高的TFLOPS（每秒浮点运算次数），能够很好地映射到GPU功能。

虽然FPGA比GPU更节能(在今天的物联网市场很重要)，但它们在DNN上的性能与GPU并不匹配。

英特尔进行的一系列测试评估了两种最新一代FPGA(英特尔的Arria TM10和statix TM10)与最新的高性能GPU (Titan X Pascal)在DNN计算上的性能。

由于数据并行计算具有规则的并行性和高浮点计算吞吐量，传统上DNN都使用GPU。每一代GPU都加入了更多的浮点单元、片上RAM和更高的内存带宽，以提供更多的浮点运算次数。

然而，由于发散等问题，具有不规则并行性的计算可能会对GPU造成挑战。此外，由于GPU只支持一组固定的本地数据类型，定制定义的数据类型可能无法有效地处理，从而导致硬件资源利用率不足和性能不理想。

首先，下一代FPGA集成了更多的片上RAM。其次，像HYPERFLEX这样的技术可以显著提高频率。第三，还有更多的DSP可用。第四，HBM内存技术的集成导致芯片外带宽增加，最后，下一代FPGA将使用更先进的工艺技术，如14nm CMOS。

英特尔Stratix 10 FPGA芯片拥有5000多个硬化浮点数单元(dsp)，超过28MB的片上RAM (M20Ks)，与高带宽内存(高达4x250GB/s/stack或1TB/s)集成，并改进了新HyperFlex技术频率，使得FP32吞吐量峰值9.2 Tflops。