马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
引言 现代半导体技术正快速向三维芯片堆叠和2.5D集成方向发展,多个芯片通过日益密集的互连进行连接。这一技术进步为传统的芯片间通信方法带来了重大挑战,特别是当封装节距从50微米缩小到小于10微米时。一种突破性的解决方案已经出现,即自时钟芯片间链路技术,在不需要专用锁相环(PLL)的情况下实现了出色的能效和带宽密度[1]。
图1:从采用25-55微米节距μBump技术的2.5D互连到采用小于9微米节距键合的3D芯片堆叠的演进过程,强调了对小型化、高能效、低延迟和高带宽芯片间链路的需求。
1 密集集成面临的挑战 传统的通过提高每引脚数据速率来最大化带宽密度的方法,在密集集成场景中面临根本性限制。当试图在缩小25倍的面积内实现相同的速度和能效时,传统技术会产生严重的功率密度问题。当考虑到传统的每周期串行化超过两位数据通常需要PLL来产生周期内的额外时序边沿时,挑战变得更加复杂。
这种要求要么将数字时钟和链路时钟约束为相同频率运行,从而限制了数字时钟适应电压噪声的能力,要么通过异步先进先出(FIFO)缓冲器引入额外的时钟跨域延迟。这些约束推动研究人员探索在复杂性、能效和性能之间取得平衡的创新解决方案。
2 自时钟链路架构 本文提出的技术在每个时钟周期内串行化四个数据位,无需单独的PLL。所有串行化、传输和解串行化操作的时序完全由自适应数字时钟的单个上升沿内部产生。这种优雅的解决方案在速度有限的完全数字接口和开销较高的复杂模拟方法之间架起了桥梁。
图2:每个时钟周期发送4个数据位的时序图以及采用循环门控的链路架构,该架构包含16个数据通道和延迟匹配的转发时钟。
该架构将64位数据在16个通道上进行串行化,同时包含转发时钟和有效信号。高速发送时钟由内部自时钟产生器生成,并分发到每个发送通道中的4:1串行化器。高速转发时钟精确地在数据采样窗口的中间产生,并分发到接收通道中的采样器和解串行化器。驱动器和接收器采用全摆幅信号工作,有效信号在逐周期基础上门控所有内部活动,不会引入进入或退出延迟。
3 比较优势 自时钟方法相比传统链路方法具有显著优势。传统链路需要独立的电压和时钟源,必须采用额外的异步边界,引入延迟和复杂性。所提出的自时钟链路完全在现有发送芯片数字逻辑电压和时钟上运行,消除了对专用电源的需求,简化了整体设计。
图3:比较需要独立电压和时钟源以及额外异步边界的传统链路与在现有发送芯片数字逻辑电压和时钟上运行的自时钟链路。
这种与发送数字时钟域的同步操作创建了零周期路径,其中单个上升沿对链路上的所有数据进行串行化和解串行化。链路完全在发送侧电压供应上运行,避免了专用供应要求,并在数字动态电压和频率调节期间实现自动节能。
4 时钟产生机制 该技术的核心在于其精密的自时钟产生器。系统采用一串由上升沿触发的低脉冲产生器,产生8个脉冲,每个脉冲的结束触发后续脉冲。发送和转发时钟通过置位-复位锁存器产生,一个脉冲作为置位信号,后续脉冲作为复位信号。
图4:由数字时钟上升沿触发的8个相同脉冲产生器链,其中偶数脉冲边沿创建2倍频率的txclk,奇数脉冲创建0.5个单位间隔偏移的fwdclk。
每个周期的多个上升沿通过使用不同脉冲的两个置位-复位锁存器之间的或运算产生。每个单位间隔使用两个脉冲,确保转发时钟边沿在所有工艺、电压、温度和老化变化中保持在发送时钟单位间隔的中间。所有脉冲的总延迟设计为匹配相应数字逻辑域中标准逻辑路径的关键路径。
5 脉冲产生器详细设计 脉冲产生器的设计体现了对本地变化的深入考虑。如图5所示,脉冲产生器通过下降的A信号触发,创建等于通过延迟路径延迟的低脉冲。额外的门电路(A1&A2)'确保A的上升沿触发Y的下降沿。
图5:脉冲产生器通过下降的A信号触发并创建等于延迟路径延迟的低脉冲,额外的门电路确保A的上升沿触发Y的下降沿。
晶体管被放大以减少本地变化的影响并避免需要任何校准。脉冲拉伸器防止先前脉冲的变化缩短当前脉冲。这种设计确保了在各种操作条件下的稳健性能。
6 零周期串行化器 零周期串行化器代表了该技术的另一个创新方面。如图6所示,该串行化器在单个上升时钟边沿上串行化4位数据,无需任何内部时序状态。
图6:零周期串行化器的简化原理图和时序图,该串行化器使用分频时钟tog_even和tog_odd通过多路复用器在位之间切换,最终的txdat多路复用器选择相反的输入。
双分频触发器仅在多路复用器输入稳定时切换多路复用器选择信号,有意延迟的txclk相对于并行时钟为第一位数据的传播提供时间。这种设计实现了真正的零周期操作,显著减少了延迟。
7 实现和性能 该实现在能效和带宽密度方面取得了显著成就。链路在0.7伏电压下实现了每引脚8 Gbps带宽、单周期延迟、77飞焦耳每位的能效以及44太比特每平方毫米的带宽密度。这些规格相比现有解决方案实现了显著改进,同时保持与先进制造工艺的兼容性。
图7:包含16个数据通道和自时钟产生器的发送和接收宏模块的布局图,其他4个连接包括fwdclk、转发并行时钟、复位和有效信号。
测试芯片采用标准单元和定制引导的布局布线流程以及静态时序实现。布局设计为与9微米的3D堆叠接口节距兼容,但在该测试芯片中放置为两个相邻的发送器和接收器模块,并通过片上金属连接。线路很小,可以支持低于5微米的节距以增加带宽密度。
8 功耗和能效分析 低活动期间的能效对许多应用特别重要。与需要多个周期进入和退出休眠状态的带有PLL的传统链路不同,自时钟产生方法允许高速转发时钟在逐周期基础上停止,使功耗与活动水平成正比。
图8:链路在不同活动水平下的测量功耗,显示了根据电压和活动程度从56 fJ/位到129 fJ/位的能效范围,测量包括PRBS数据生成逻辑。
测量功耗包括图2所示的整个TX和RX以及数据生成逻辑,但不包括实际混合键合(3D情况)或通道(2.5D情况)的电容。功耗测量显示了出色的可扩展性,在低活动期间保持低功耗。
9 测量结果和验证 全面的测试验证了链路在宽电压和频率范围内的稳健操作。系统在各种操作条件下表现出误码率低于1e-12的无错操作,确认了自时钟方法的可靠性。
图9:在不同电压水平下无错误(BER<1e-12)的每引脚数据速率测量,展示了从0.5V到0.9V的可靠操作。
链路功能通过PRBS生成器和检查器进行测量,该生成器和检查器通过链路发送64位数据并检查错误。通道速率为输入时钟频率的4倍,证明了4:1串行化的有效性。
10 时序裕量分析 时序裕量通过人为延迟转发时钟或发送时钟进行测量。在0.7V下测量的裕量超过80皮秒,提供了充足的操作余量。
图10:通过可编程延迟链人为延迟发送时钟(txclk)或转发时钟(fwdclk)来测量裕量,在0.7V下测量的裕量超过80皮秒。
相位测量单元测量由额外延迟引起的相位差,并通过测量时钟的绝对频率转换为皮秒。这种测量方法提供了对链路时序性能的准确评估。
11 芯片照片和比较 实际实现的芯片照片显示了相邻TX和RX宏模块的紧凑布局。与现有技术的比较表明,即使在较低的每引脚带宽下,所提出的自时钟链路的小巧简单线路也比采用PAM-4信号和专用PLL的更复杂方法提供更高的带宽密度和能效。
图11:芯片照片,展示了相邻的TX和RX宏模块的紧凑实现。
该技术在3纳米工艺中实现,展示了与最先进制造技术的兼容性。布局的紧凑性和能效的提升使其特别适合密集的3D集成应用。
这种创新的自时钟芯片间链路技术在密集集成解决方案中代表了重要进展,相比传统方法提供了优异的能效、带宽密度和简洁性,同时满足了下一代3D芯片堆叠应用的严格要求。该技术通过消除对专用PLL的需求,同时保持高性能和低延迟,为未来的高密度芯片集成提供了实用的解决方案。
|