马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
三星首发 HBM-PIM 内存计算技术,今年上半年可完成验证并交付
三星宣布,其新的基于HBM2的内存具有集成的AI处理器,该处理器可以提供最高达1.2 TFLOPS的嵌入式计算能力,从而使内存芯片本身能够执行通常由CPU,GPU,ASIC,或FPGA处理的工作。 新的HBM-PIM(processing-in-memory)芯片将AI引擎注入每个存储体中,从而将处理操作转移到HBM本身。新型的内存旨在减轻在内存和处理器之间移动数据的负担,因为这个操作带来的功耗和时间比实际的计算操作更为昂贵。 三星表示,将其应用于现有的HBM2 Aquabolt内存后,该技术可以提供两倍于系统的性能,同时将能耗降低70%以上。该公司还声称,新内存不需要任何软件或硬件更改(包括对内存控制器的更改),从而为早期采用者提供了更快的上市时间。 三星表示,这种存储器已经在领先的AI解决方案提供商的AI加速器中进行了试验。该公司预计所有验证工作都将在今年上半年完成,这标志着快速进入市场的道路。 深挖三星HBM-PIM内存 三星在本周的国际固态电路虚拟会议(ISSCC)上展示了其新存储器架构的详细信息。 如您在上面的幻灯片中看到的那样,每个存储库都有一个嵌入式可编程计算单元(PCU),其运行频率为300 MHz,每个裸片总共32个PCU。这些单元通过来自主机的常规存储命令进行控制,以启用DRAM中处理功能,并且它们可以执行各种FP16计算。该存储器还可以在标准模式下运行,这意味着它可以像普通HBM2一样运行,也可以在FIM模式下运行以进行内存中数据处理。
自然地,为PCU单元腾出空间会减少内存容量-每个配备PCU的内存芯片的容量(每个4Gb)是标准8Gb HBM2芯片的一半。为了帮助解决该问题,三星通过将四个4Gb裸片与PCU和四个不带PCU的8Gb裸片组合在一起来使用6GB堆栈(与之相比,带有普通HBM2的8GB堆栈)。 值得注意的是,上面的论文和幻灯片将这种技术称为功能内存DRAM(FIMDRAM),但这是该技术的内部代号,该技术现在带有HBM-PIM品牌名称。三星的示例基于20纳米原型芯片,该芯片在不增加功耗的情况下可实现每针2.4 Gbps的吞吐量。 本文将基础技术描述为“功能于内存的DRAM(FIMDRAM),该功能在存储库中集成了16宽单指令多数据引擎,并利用存储库级并行性提供了比关闭存储高4倍的处理带宽。芯片存储器解决方案。其次,我们展示了无需对常规存储器控制器及其命令协议进行任何修改的技术,这些技术使FIMDRAM在快速工业应用中更加实用。” 但是,至少在目前,我们不会在最新的游戏GPU中看到这些功能。三星指出,这种新内存注定要满足数据中心,HPC系统和支持AI的移动应用程序中的大规模处理要求。 与大多数内存处理技术一样,我们希望这项技术将突破存储芯片散热限制的边界,尤其是考虑到HBM芯片通常部署在堆栈中,而这些堆栈并不完全有利于轻松散热。三星的演讲没有涵盖HBM-PIM如何应对这些挑战。 三星电子存储器产品计划高级副总裁Kwangil Park表示:“我们开创性的HBM-PIM是业内首个针对各种AI驱动的工作负载(如HPC,培训和推理)量身定制的可编程PIM解决方案。我们计划以此为突破通过与AI解决方案提供商进一步合作以开发更高级的PIM驱动的应用程序。” |