马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
在图形和人工智能(AI)应用中,对内存带宽的需求持续增长。这种不断增加的需求主要是因为需要支持更为复杂的几何图形处理、光线追踪,以及传统的人工智能运算。从动态随机存取存储器(DRAM)的制造工艺和能源效率的角度来看,扩展GDDR6内存带宽极具挑战性且效率低下。因此,人们提出采用脉冲幅度调制4电平(PAM4)信令方法来扩展内存带宽,该方法能使DRAM核心时钟避免提高频率。从DRAM设计的角度而言,这一方法优势明显,但它在输入/输出(I/O)接口方面却带来了一些挑战。本文介绍了单端内存接口通道中PAM4信令所特有的设计挑战,以及克服这些挑战的技术,其中包括一种新的转换限制编码方案。同时,本文还引入了一个强大的系统建模框架,该框架能够捕捉图形处理单元(GPU)、DRAM以及整个链路中的多种损耗。此外,该方法还包含一种对高速接收器中的非线性进行建模的新方式。最后,文章展示了硅后测量数据,以及模型与硬件之间的相关性。
在围绕特定内存标准构建系统时,提升带宽往往意味着增加通道,也就是拓宽内存接口。但这种方式会带来一系列成本问题: 主机设计更复杂:需要在主机上增加引脚数量和逻辑电路,用于与内存通信和控制内存功能。 不过,不同应用对这种成本增加的接受程度不同。一些应用能够轻松承担额外内存布局带来的开销,而另一些应用更注重单位内存布局面积所带来的带宽提升,而非单纯增加内存数量。
正是这些特定应用的目标,推动了DDR、LPDDR和GDDR之间的差异。不同类型的内存标准在设计上会倾向于满足不同应用场景的需求,进而形成各自的特点。 以上图中不同内存标准的发展趋势为例: 像自动驾驶辅助系统(ADAS)和新兴的人工智能(AI)解决方案这类数据密集型功能,对内存带宽要求极高。这些应用需要快速处理和传输大量数据,因此推动了GDDR内存标准朝着更高带宽的方向发展,使得上图中GDDR分支的斜率更陡峭。 相比之下,DDR(双倍数据率)和LPDDR(低功耗双倍数据率)市场更注重在每引脚带宽、低功耗和其他关键指标之间寻求平衡。DDR常用于一般的计算机系统,对功耗和带宽有一定的综合要求;LPDDR主要应用于移动设备等对功耗极为敏感的场景,在保证一定带宽的同时,更强调降低功耗。所以它们不会像GDDR那样,单纯为了追求高带宽而忽略其他方面的性能。
从长远来看,不能一直依赖增加功耗来满足 GDDR 不断增长的带宽需求,需要探索新的技术路径和解决方案,以实现内存性能的持续提升,同时还要兼顾功耗、成本等其他方面的因素 。
在典型的 DRAM 工艺中,针对一个固定电容为 1pF 的负载进行模拟测试。在不同的数据传输速率下,对四个不同的工作电压进行研究。上图所示为结果呈现:展示了模拟得到的能效曲线,能效的单位是皮焦耳 / 比特(picojoules/bit ,等同于 mW/Gb/s)。这些曲线反映了在上述不同条件下,驱动 1pF 负载时的能效情况。通过观察这些曲线,可以分析出在不同工作电压和数据速率组合下,系统的能效表现。 对数据进行细分后可以发现,每个电压都存在绝对的速度限制。然而,更值得注意的是,在一些工作电压区间内,提高电压能够带来更高效的解决方案。例如,在左侧图表中金色阴影区域,在一定频率范围内,1.35V 的工作电压比 1.2V 的能效显著更高(每比特能耗更低),这表明,GDDR 使用较高电压(1.35V)并非没有效率。 由此可见单纯的提高数据速率会使 DRAM 能效呈指数级下降,增加通道又带来成本和功耗等问题。从能效曲线可知,提升电压虽在一定频率范围有效,但 GDDR6 的 14 - 16 Gb/s 目标已处于低效区间,因此需要新的方案 。 用于内存接口的PAM4信令 PAM4 接口架构,通过在电压域压缩电平,实现每个单位间隔(UI)传输 2 比特数据,从更系统的层面来看,该架构在技术发展和实现过程中面临诸多方面的挑战与考量。 PAM-N信令通过在电压域压缩电平来增加每个单位间隔(UI)传输的比特数,使 DRAM 核心时钟无需提升频率的情况下可以扩展内存带宽。例如,PAM4使用4个电平,每个UI编码2比特,如下图所示。一般来说,PAM-N系统使用N个电平传输log2(N)比特数据,并有N-1个数据眼。
图3.用于扩展GDDR数据速率的PAM4信令 PAM4信令已被应用于许多串行器/解串器(SERDES)接口以提高数据速率,包括从PCI-Express GEN5的32Gbps到GEN6的64Gbps的转变 ,以及以太网(IEEE 802.3)从100G到200G/400G的升级 。在SERDES中采用PAM4的动机之一是通过保持基频来限制信道损耗。 当希望将接口带宽翻倍时,一个常用的判断方法是确定频率f和f/2之间的损耗差值是否大于PAM4固有的信噪比(SNR)下降,如图4所示。
图4. 用于指导NRZ和PAM4信令选择的著名损耗准则 由于大多数图形内存系统拓扑结构是短距离的,而且最初的GDDR6X设备的目标数据速率并非其前一代GDDR6的两倍,因此基于损耗而采用PAM4的动机并不一定适用于图形内存。图形内存通道确实会受到损耗的影响,但它们也受到反射、同时开关噪声(SSN)以及由单端信令引起的串扰的困扰。因此,从I/O的角度来看,PAM4不一定是扩展接口带宽的显而易见的选择。然而,保持信号频率不变可以减轻相对落后的DRAM晶体管(与更先进的逻辑节点中的晶体管相比)在高速电路设计方面面临的一些负担。DRAM的设计复杂性,加上前面提到的能效优势,表明PAM4信令与传统DRAM架构扩展的2的幂次特性最为兼容。 内存接口采用PAM4信令面临的独特挑战 实现单端PAM4会带来许多独特的挑战。多年来,GDDR接口一直采用伪开漏逻辑(PODL)发射器,并在远端端接到电源,这需要一个参考电压(VREF)来捕获单端数据。在NRZ信令中,这个VREF会受到多种噪声源的影响。在PAM4系统中,则需要三个这样的VREF来捕获和解码数据 。包括温度漂移、发射器非线性和终端失配等因素的影响,会使其最佳值会有所变化,VREF的最佳值有所变化,而且PAM4对这些变化的敏感度更高。大多数PAM4标准都指出了这些损伤,包括如图5所示的电平失配比R_LM。
图5. R_LM 反映PAM4电平均匀性及其对数据眼对称性和链路裕量的影响 除了电平失配,还存在以信噪比失真比(SNDR)形式表现的发射器非线性。其公式如下:
其中
是线性拟合误差的变化量,
是噪声项: 单端PAM4信令和NRZ信令一样,也容易受到同时开关的影响。在PAM4系统中,SSN的大小取决于信号的电平,因为在驱动器和电源之间会形成一个分压器,如图6所示,该图展示了从控制器(GPU)向DRAM写入数据时的情况。
图6. 单端PAM4信令写入操作期间的SSN考量
PAM4的SI可行性研究很快揭示了一种最糟糕的信噪比情况:最大PAM4转换。当发生最大转换(-3到+3和+3到-3)时,码间干扰(ISI)、串扰和其他损伤会达到最大值,从而导致裕量降低,如图7所示。图7左侧的图展示了最大转换如何导致main cursor幅度因post cursor而降低。中间的脉冲响应突出了最大转换后post-cursor对受害眼施加全幅度噪声的影响。最后,右侧的图像展示了最大转换如何产生最严重的串扰(最大转换边沿最陡峭)。
图7. PAM4内存系统中最大转换的限制,包括主光标ISI(左)、后光标ISI(中)和串扰(右) 此外,链路电路中的一些非线性源在最大转换期间也会加剧。因此,非常有必要通过设置一个编码引脚来消除最大转换,以提高链路裕量。
|