马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
引言 光学神经网络(ONNs)因其超低延迟、超低功耗、高带宽和并行处理能力而成为下一代计算架构的优秀候选。光子作为计算媒介在执行线性代数矩阵运算方面具有显著优势,这对神经网络处理至为基础。然而,传统光计算架构面临严重的可扩展性挑战。
本文探讨了密歇根大学研究人员提出的一种创新方法,该方法在光学神经网络中实现了卓越的可扩展性。该架构采用产品量化(Product Quantization, PQ)技术压缩基于马赫-曾德干涉仪(MZIs)的光子计算矩阵,当扩展到784 × 784网络(适用于MNIST数据集处理)时,实现了芯片尺寸332倍的显著减小[1]。
1 产品量化方法 PQ压缩方法是该架构创新的核心。这种技术将全连接神经网络层中复杂的矩阵向量乘法转换为高效的查找操作。该方法牺牲一些准备时间来最小化矩阵向量乘法的占用空间,同时加速计算速度。
该方法包括三个关键阶段。首先,在预处理K-均值阶段,标准K-均值聚类算法计算所有段的质心集。每个段获得的K个质心形成相应的码本。这一预处理步骤的计算复杂度为O(C * MaxIter * Len * N)。
接下来,在预处理查找表阶段,矩阵向量乘法被分成几个可并行计算的独立向量向量乘法。对于每个向量向量乘法,所有K²种可能的结果都被预先计算并存储在查找表中。非线性激活函数也可以嵌入到这些结果中。预计算的复杂度为O(K²N)。
最后,在处理中的查找操作阶段,该架构执行简单的查找操作,而不是复杂的矩阵向量乘法。单个查找操作的计算复杂度为O(K * N/C) + O(M)。
该架构实现了O(X√X)的计算复杂度,其中X = max(N, M),当N和M具有相似量级时,这比传统方法的O(NM)复杂度效率高得多。
图1:紧凑型全芯片计算架构,显示了三个主要区域:信号生成(区域1)、信号编码和初步处理(区域2)以及查找操作(区域3)。
2 集成平台 该架构的实现依赖于先进的异构III-V-on-silicon光电子集成平台,该平台提供多功能和高密度能力。该平台包含几个关键构建模块,使全集成神经系统成为可能。
图2:关键构建模块的横截面视图,包括(a)量子点激光器、雪崩光电探测器、半导体光放大器,(b)金属氧化物半导体电容-微环谐振器、内存谐振器、非侵入式监视器,以及(c)量子阱电吸收调制器。
PQ压缩架构将K个波长编码到单个传播路径中,并并行计算C个量化。系统由几个协同工作的组件组成。信号生成部分使用具有K个不同波长的激光器,每个支持40个输入。光被均匀分配到C个不同的码本量化中。
在信号编码和初步处理部分,系统计算输入向量段与质心之间的欧几里得距离,使用绝对值作为近似:||vi - wordj||² ≈ |vi - wordj|。最小信号组件然后使用监视器识别最小光强度的索引(包含原始波长信息)。
查找操作部分采用成组的微环谐振器(MRRs)列来对所有输出光强度进行求和。来自码本的C个不同结果被求和以产生最终结果。
3 性能和可扩展性 随着I/O连接数量的增加,该架构展示了显著的可扩展性优势。虽然由于初步处理部分所需的空间,它在小I/O数量时可能在占用空间方面没有竞争力,但在大规模时提供显著优势。
图3:架构尺寸比较,显示不同方法的芯片占用空间与I/O数量的关系。PQ压缩架构(绿线)相比MRR和MZI方法展示了优越的可扩展性。
对于网络尺寸N = M = 784(适用于MNIST数据集处理),压缩比达到与传统基于MZI的方法相比的332倍。此外,PQ压缩架构有潜力支持132.2 TOPS/mm²的吞吐量,代表了计算密度方面的显著进步。
4 实验结果 通过随机化权重矩阵W ∈ R^(784×784),打乱MNIST数据集并选择1,000个向量进行测试,评估了该架构的性能。对于每个向量v,执行了精确的向量矩阵乘法(Wv)和近似版本(Wv̄)。
实验测量显示相对误差为0.1072,意味着近似引入了与原始结果相比约±10.7%的误差。然而,该方法实现了0.9998的余弦相似度,表明向量方向几乎完全对齐。结构相似性指数(SSIM)测量为0.8705,显示近似结果和原始结果之间的高结构相似性。这些指标表明,尽管通过近似引入了一些误差,但可以通过训练有效缓解,使该架构适用于实际神经网络实现。
5 组件需求 PQ压缩架构的实现需要特定数量的各种光子器件。对于参数为N=M=784、C=64和K=4的网络,实现需要K个量子点分布反馈激光器(每个尺寸为6µm × 800µm),KN个可变光衰减器(VOA)(每个尺寸为10µm × 10µm),以及KN个电吸收调制器(EAM)(每个尺寸为90µm × 10µm)。此外,还需要CM + KN + KC个微环谐振器(每个尺寸为10µm × 10µm)和M个量子点雪崩光电探测器(APD)(每个尺寸为3µm × 30µm)来完成实现。
6 结论 本文介绍的高可扩展性光学神经网络架构代表了光子神经网络领域的显著进展。通过利用产品量化将复杂的矩阵向量乘法转换为高效的查找操作,该架构在保持可接受精度的同时,实现了大规模网络芯片尺寸减小332倍。
该架构在具有先进构建模块的异构III-V-on-silicon光电子平台上的集成,使得全芯片实现能够利用光计算的优势:超低延迟、超低功耗、高带宽和并行处理能力。
|