马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
传统冯·诺依曼架构因内存与处理器间的频繁搬运面临延时与功耗问题,存内计算应运而生。其通过直接在存储单元内完成数据运算,实现“存储即计算”的融合架构,为边缘端能效比优化提供硬件级支持。 该研究提出一种混合精度异构存内计算(CIM)AI边缘处理器(图1),通过计算单元异构与动态精度分配策略突破传统存内计算技术的能效-精度-存储密度之间权衡的瓶颈。针对非易失性忆阻器CIM的高密度存储优势与较大计算误差、数字SRAM-CIM的无损计算特性与有限存储容量之间的固有矛盾,本工作构建了层粒度/核粒度的可配置硬件架构:在计算精度上,支持包括定点,定点输入-浮点权重,浮点输入-定点权重以及浮点的四种模式(图2);在硬件架构上,异构集成多级单元忆阻器阵列以实现紧凑存储和高能效计算,数字SRAM计算单元以实现无损计算,以及微型数字单元以实现低数据复用性或低并行性的运算(图3)。该方案采用22纳米量产级工艺在分类任务中达成40.91 TFLOPS/W (ResNet-20/CIFAR-100)和28.63 TFLOPS/W (MobileNet-v2/ImageNet) 的能效,精度损失控制在0.27%-0.42%区间,同时利用忆阻器非易失特性实现了373.52 μs快速唤醒响应。这种层/核粒度的动态重构能力为边缘智能设备提供了面向模型与数据集的AI硬件配置方案。
图1 混合精度异构存内计算AI边缘处理器
图2 四种精度模式下,混合存内计算在点积运算的硬件运行
图3 高效的忆阻器CIM、精确的SRAM-CIM和微型数字单元的分配过程
|