马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
如今的数据中心对性能的要求越来越高,即使是最快的 CPU 也难以满足。因此,深度学习网络(DNN)、人工智能(AI)、复杂数据分析、4K 直播视频等关键工作负载都被卸载到加速器上。随着 GPU 在机器学习的训练环节中受益匪浅,FPGA 在云服务中也变得无处不在,这些 FPGA 对容量和带宽的要求不断提高,即使采用最新的技术节点,单片芯片也无法满足,更不用说大型设计所涉及的可制造性问题了。 多芯片互连带来了诸多挑战,如连接性有限、信号和电源完整性问题、高功耗、速度和带宽受限以及延迟等。赛灵思通过创新的堆叠硅互连(SSI)技术应对了所有这些挑战 。SSI 技术利用成熟的 micro-bump技术,结合仅在布线层使用的硅interposer 上的硅通孔(TSV),如图 1 所示。
图1. Xilinx 3DIC FPGA Illustration 硅interposer 基于成熟的 65nm 硅制造工艺,充当互连载体。FPGA 芯片不再堆叠(堆叠存在功耗和可靠性问题),而是通过 micro-bump和再分布层(RDL)并排连接。 Virtex Ultrascale + 采用 16nm FinFET 技术,带来了前所未有的性能提升。例如,SCVU37p 提供 2852K 个逻辑单元、9024 个 DSP 切片、65,913MB 内存、624 个 IO 以及 96 个运行速度为 32.75Gb/s 的 GTY 收发器 。 本文重点研究 Vertex Ultrascale+ SerDes 接口 GTY 在 SSI 封装中以 32.75Gbps 运行时的电源分析。
系统级电源分析挑战
赛灵思 Virtex Ultrascale + 系列产品对敏感的模拟电源域提出了极高的要求。单独对芯片(DIE)、interposer 和封装进行分析会产生误报,还会忽略噪声耦合。3DIC 系统级多电源耦合分析对于满足性能要求至关重要。 在分别对芯片和interposer 进行电源sign-off时,芯片上的每个 micro-bump都被认为在为晶体管供电方面具有同等效力。但其实不同位置的micro-bump的供电能力并不相同,问题主要体现在两个方面。 首先,存在 IR 压降精度问题。在分析芯片时,芯片上的每个 micro-bump都被认为在为晶体管供电方面具有同等效力,因此被视为理想电源。仅对芯片进行的 IR 分析如图 2 所示,在 micro-bump处放置理想电源,并应用 GTY Quad 中晶体管的电流消耗。这里隐含了每个 micro-bump都相同的假设。
图 2. DIE only IR analysis 在完成芯片分析后,收集 micro-bump上的电流分布信息,并将其作为电流负载应用于interposer 分析。在 C4 bump处放置理想电源,TSV 作为电源焊盘的寄生 RLC 模型包含在内。IR_1 和 IR_2 的总和被视为总 IR 压降。
图 3. Interposer only IR analysis 其次是 micro-bump焊盘电流的 EM 限制问题。模拟设计中的电路模块功率密度范围很广 ,因此为高功耗模块供电的电源和接地焊盘(芯片中的 micro-bump)面临着超过电流限制的风险。图 4 中突出显示的 micro-bump消耗了附近电路模块总消耗电流的 54%,而 C4 bump下方的四个 micro-bump仅消耗约 5%。由于 micro-bump的电流限制非常低,突出显示的 micro-bump存在 EM 违规情况。与突出显示的 micro-bump相比,C4 bump下方的 micro-bump到 C4 的阻抗更小,因此它们最终应该为电路提供更多电流,这一点将在系统级多电源耦合分析中进一步展示。
图 4. Micro-bump closed to CKT region has a false EM violation 2. 合并封装引起的耦合 由于资源限制,芯片上具有相同电压电平的独立电源域可能需要在封装上合并。仅对芯片进行分析时假设芯片焊盘处为理想电源,而仅对封装进行分析时无法在晶体管级别进行精确分析。GTY 32.75Gbps 的数据速率对时序和抖动,尤其是电源引起的抖动提出了极其严格的要求。因此,即使只有几毫伏的电源噪声,也可能对敏感电路造成严重损害 。
图 5. Illustration of separate DIE supplies merged on package
图 6. VDDA1 (aggressor) current profile
图 7. VDDA2 supply noise coupled from VDDA1 through pacakge 图 5 展示了芯片上独立电源在封装上合并的示例。部分敏感电路由稳定的 VDDA2 供电,在假设 VDDA2 bump处为理想电源的情况下,已在模块级别完成动态功率分析sign-off。然而,VDDA1 具有如图 6 所示的电流曲线。VDDA1 中的主要频率成分恰好处于 VDDA2 电路非常敏感的范围内,VDDA2 bump将观察到如图 7 所示的电源噪声。 由于电源域在封装上的合并,仅对芯片进行分析无法揭示电源在封装上合并后带来的耦合影响。仅对封装进行分析无法提供晶体管级别的精确模拟。系统级多电源耦合分析能够提供晶体管级别的精确电源波形,因此可作为电源传输网络的设计指南。
系统级多电源并发仿真分析
为了消除 IR 精度和 micro-bump EM 限制方面的担忧,并确保设计满足高质量和长寿命的要求,提出了基于设计的系统级多电源耦合分析流程。
图 8. Concurrent 3DIC static flow illustration 在静态流程中,忽略封装的影响,并将其计入系统 IR 预算。导入 65nm 的硅interposer GDS 和 16nm 的 GTY Quad GDS。在 C4 处放置电源焊盘,在晶体管处放置电流负载。 正如预期的那样,IR 图揭示了受 micro-bump影响的分布细节。从单独分析中得到的芯片 IR 图如图 9 所示。
Fig 9. DIE only IR map 3D 系统级多电源耦合分析消除了 micro-bump的均衡效应,揭示了更多的分布细节,如图 10 所示系统级的IRDrop与单独DIE进行仿真的IR Drop有着明显的区别。
Fig 10. 系统级并发 3DIC IR map C4 bump下方的 micro-bump提供了最低阻抗的最终电源路径,它们承担了总电流消耗的合理份额,如图 11 所示。C4 bump下方的四个 micro-bump消耗了总电流的约 50%,而在单独分析中这一比例仅为 5%。相比之下,距离电路最近的 micro-bump消耗了 16% 的电流,而在单独分析中这一比例为 54%。因此, micro-bump超过 EM 限制的担忧得以消除。
图 11. Micro-bump current distribution in concurrent 3DIC analysis 2. 电源耦合分析 VDDA2 电源本身的设计特别干净,但 VDDA2 和 VDDA1 在封装上相连。在进行耦合分析后,尤其是分析从 VDDA1 到 VDDA2 的互阻抗后,耦合特性清晰地展现出来。
图 12. Comparison of trans-impedance from VDDA1 to VDDA2 and VDDA3 还绘制了从 VDDA1 到 VDDA3 的互阻抗图(图 12),以展示其异同。必须在包括封装和硅片的系统级多电源耦合分析指导下进行仔细设计,才能在设计阶段消除此类噪声和由此引起的抖动。
结论
3DIC 系统级电源并发分析对于确保在要求苛刻的 32G + 环境中的设计质量和性能至关重要。建议应用系统级并发电源分析流程来完成 EM/IR 要求的sign-off,获取准确的 IR 图和焊盘 EM 限制,从而解决电网分布的弱点并消除可靠性方面的担忧。电源域的选择也需要在该分析的指导下进行,以完全消除封装带来的耦合。
|