[零组件/半导体] 详解UCIe-3D(上):如何通过混合键合技术实现Chiplet互连性能和功耗突破?

[复制链接]
查看12 | 回复0 | 昨天 21:42 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×


【内容目录】

1.UCIe 2.0与UCIe-3D
2.UCIe-3D的目标及实现方法
3.混合键合技术突破“存储墙”与“功耗墙”限制
4.UCle-3D PHY电气特性
5.PAM-N突破Chiplet的I/O性能瓶颈
6.‌功耗‌是Chiplet互连的核心瓶颈
7.功率优化的几个关键因素
21413657d0782a.png
UCIe 2.0与UCIe-3D
UCIe 2.0由UCIe联盟于2024年8月正式发布,它通过标准化接口解决了多芯片封装中裸片间互联的物理层、协议兼容性和管理架构问题,以构建开放的生态系统,支持高性能计算、AI等场景的灵活芯片集成‌。
UCIe-3D是UCIe 2.0标准的一部分,支持‌3D堆叠模式‌(如FtF/FtB/BtB键合),带宽密度高达‌300 TB/s/mm²,较2D/2.5D架构带宽密度提升10倍以上,使Chiplet在有限面积内实现更高性能集成,满足AI和高性能计算对高密度互连的需求‌。
UCIe-3D支持‌混合键合‌技术,凸点间距可缩小至‌1µm以下‌,使Chiplet之间的互连接近单芯片的电气性能‌。窄间距允许在垂直方向堆叠更多Chiplet,例如逻辑芯片与存储芯片的3D集成,减少信号延迟和功耗‌。
214137bf3ee727.png
图1:UCIe-2D、UCIe-2.5D及UCIe-3D性能比较。
UCIe-3D通过‌垂直互连‌、‌小凸点间距‌和‌超高带宽密度‌,为Chiplet提供了从平面集成向3D堆叠的全面覆盖,解决了摩尔定律放缓下的性能瓶颈,同时推动了模块化、开放化的Chiplet生态系统发展‌。
UCIe-3D的目标及实现方法
2141376b8aed13.png
图2:UCIe-3D方法与目标。
UCIe-3D互连技术通过混合键合、PHY层最小化与集群修复机制,实现了Chiplet设计在性能、功耗与可靠性上的三重突破。
右上‌图(图2)展示了面对面混合键合以及凸点(C4凸点)和封装基板的连接。在凸点约束下的紧凑布局中,采用3D混合键合技术(C4凸点),将PHY逻辑严格限制在凸点间距范围内,如对于1µm的凸块间距,每条通道的面积小于1µm2。这种设计通过降低信号传输距离(<0.5mm)实现无D2D适配器的直连架构,规避了高频信号衰减问题,误码率(BER)可降至10-15以下,因而不再需要循环冗余校验CRC‌。
右下图(图2)展示了每个SoC逻辑如何连接到UCIe-3D PHY,每个Chiplet都有自己的系统控制器逻辑、I/O等。最小化PHY层是将SoC逻辑直接连接到PHY层,每个SoC逻辑连接到一个或多个UCIe-3D PHY。通用测试、调试、模式和基础设施(TDPI)块负责协调各个Chiplet的训练、测试、调试等。
左下‌图(图2)展示了Chiplet如何通过UCIe-3D互连。采用集群冗余机制,当某个UCIe-3D通道发生故障时,系统控制器通过SoC逻辑重构数据路径,绕过出现故障的裸片,实现动态通道屏蔽与负载均衡。这种机制可使系统可用性提升至99.999%‌。
混合键合技术突破“存储墙”与“功耗墙”限制‌
2141371540576f.png
图3:混合键合技术在Chiplet互连中的应用及其优势。
早期的芯片互连技术主要是引线键合,随后发展为焊料凸点。随着技术的发展,出现了硅中介层/微凸块‌,最终发展为当前的‌混合键合‌技术。
混合键合通过铜-铜(Cu-Cu)键合与氧化物介电层结合,使互连间距缩小至亚微米级(<1μm),单芯片互连密度可达‌每平方毫米700万连接点‌,较传统焊球连接提升2个数量级‌。
与焊料相比,铜互连的寄生电阻(R)和电容(C)降低90%‌,结合垂直堆叠的短距离传输特性,带宽密度提升至‌>5Tb/s/mm²‌,同时功耗密度降至‌0.3pJ/bit‌以下‌。
通过低温退火(<300℃)与热膨胀系数(CTE)相结合的设计,键合界面应力分布均匀性提升30%,可避免分层风险‌。
混合键合的机械强度‌>200MPa‌,优于焊料凸点(~50MPa),满足汽车电子与HPC(高性能计算)的严苛可靠要求‌。
混合键合是HBM4/HBM5存储堆叠的关键技术,支持‌>1TB/s‌带宽,满足GPU/TPU对近存计算的需求‌。
预计2026年混合键合成本将降至目前的50%,通过多芯片晶圆(Multi-Chip Wafer)键合与无载体工艺(Carrier-Free)实现规模化降本‌。
混合键合技术正推动半导体封装从平面互连向三维集成范式转变,突破了“存储墙”与“功耗墙”限制‌。尽管面临成本、良率与工艺整合挑战,但通过材料创新、设备升级与标准化推进,混合键合技术可能在2025~2030年成为3D IC与Chiplet生态的基石‌。
UCle-3D PHY电气特性
2141373d6cf6e1.png
图4:UCle-3D PHY电气特性的关键概念和设计目标。
在Chipletg互连等高速数据传输中,信号完整性易受电源噪声、串扰等影响。UCle-3D PHY电气设计采用匹配架构,将电路设计成“对称结构”(如差分信号、阻抗匹配)实现噪声抑制,避免增加功耗,从而提升Chiplet之间通信的可靠性和效率。
传统的匹配设计(例如始终开启的阻抗匹配电路)会增加静态功耗。UCle-3D PHY采用动态匹配技术(如按需校准的阻抗匹配),仅在需要时激活相关电路,从而降低功耗。
在UCle-3D PHY电气设计中,通过优化时钟信号匹配,提高了Chiplet互连的噪声抑制能力和能效,从而增强整个Chiplet系统的性能和可靠性。
PAM-N突破Chiplet的I/O性能瓶颈
21413871678903.png
图5:PAM-N(脉冲幅度调制)信号在高速I/O中的应用优势。
Chiplet技术是将复杂SoC分解为多个裸片,通过‌高带宽、低延迟的裸片到裸片互连‌实现模块化集成‌。PAM-N(如PAM-4、PAM-6)调制技术是提升互连数据率的关键手段,尤其适用于‌带宽受限的高损耗封装环境‌(如3D堆叠中的硅中介层或微凸块)‌。
PAM-N通过多电平调制(如PAM-4每符号传输2比特),可在相同符号率下实现更高数据率,满足Chiplet对‌超高密度互连带宽(如800Gbps+以太网)‌的需求‌。
先进封装(如2.5D/3D集成)为PAM-N提供了低损耗传输通道,而PAM-N的高效编码则缓解了封装设计的时序压力‌。
PAM-N技术通过提升调制效率与抗干扰能力,解决了模块化芯片集成中的I/O性能瓶颈问题‌。这一技术与UCIe协议和封装创新(如3D堆叠)紧密结合,共同推动异构计算系统的性能突破。
功耗‌是Chiplet互连的核心瓶颈
21413891f30439.png
图6:UCIe处于功率受限(而非带宽受限)系统中,Chiplet需在高带宽和功耗之间权衡‌。
‌Chiplet系统设计面临一个挑战‌:通过高密度集成(UCIe-3D)和先进调制技术(PAM-N)提升带宽,但受限于功率和噪声的约束。
UCIe处于功率受限(而非带宽受限)系统中,‌功耗控制‌是Chiplet间通信的核心瓶颈。随着Chiplet数量增加和集成密度提高(如UCIe-3D凸点间距从45μm缩小至9μm,密度提升25倍‌),信号传输的功耗和噪声问题被放大。为了达到相同的带宽,数据率只需要达到1.28Gb/s。如果数据速率相同,为了达到相同的功率,能量效率需要达到0.01 pJ/b。
在功率受限的情况下,选择适合的调制方式和参数(如PAM-N和NRZ),可以优化Chiplet系统的整体性能和能效。
在低损耗系统中(如短距离互连),非归零码(NRZ)因简单、低功耗成为首选,尤其适合Chiplet内部模块间通信‌。
功率优化的几个关键因素
214138b94481ac.png
图7:‌电源效率公式。
在Chiplet设计中,‌电源效率的优化直接影响Chiplet系统能效。
图7中的公式用于计算电源效率,其中Cdat是与数据位相关的总电容,Cck是与时钟缓冲器、分布和生成相关的总电容,N是‌数据率与时钟频率比。
Chiplet通过多裸片集成实现高算力,但互连的电容(如D2D互连中的线路和ESD电路)会增加动态功耗‌。通过降低Cdat(如优化互连线路布局)和 Cck(如精简时钟网络),可减少Chiplet模块间通信的信号延迟和功耗,提升系统稳定性‌‌。
N的优化与Chiplet互连协议(如UCIe、BoW)密切相关。提高数据率(即增大N)可降低单位比特的时钟功耗,适用于高带宽需求的HPC场景‌。例如,UCIe协议支持多通道并行传输,通过提升数据率减少时钟频率需求,从而匹配公式中N的增益效应‌。
目前英特尔等厂商正在探索光I/O Chiplet,利用光学传输降低电容和电压需求,直接提升电源效率模型的参数表现,推动Chiplet在高性能计算场景中实现“算力提升”与“功耗降低”的双重目标‌。
在Chiplet设计中,功率优化有几个关键的因素需要考虑:
不同裸片之间的互连和通信非常重要。较低的Vdd可以减少功耗,而有效的ESD保护措施可以防止静电放电对Chiplet的损害。
要尽量减少晶体管数量并降低电路复杂度,以减少功耗。每个Chiplet模块应尽可能简单和高效,避免不必要的复杂电路。增加数据速率不应通过增加电路来实现,因为这不会提高电源能效,而只会增加电容(C)。
在Chiplet设计中,单向通信比双向通信更为高效,因为双向通信需要在每个方向上都有发送和接收电容,这会增加功耗。
N路交织可以通过复制电路N次来放松时序要求,但实际上N通常取1或2,因为生成4个或更多相位需要很多电路,如DLL(延迟锁定环),这会增加功耗和复杂度。在Chiplet设计中,应谨慎使用这种技术,以避免不必要的功耗和复杂度。
结语
UCIe-3D作为UCIe 2.0的核心扩展,首次定义了支持‌3D堆叠‌的标准化接口,通过混合键合、集群修复、PAM-N调制等创新,解决了高密度互连的带宽、功耗、良率等难题,在AI/HPC芯片、汽车电子、数据中心及先进封装领域展现出潜力,是后摩尔时代突破算力瓶颈的重要技术。
本文是详解UCIe-3D的第一部分,第二部分我们将探讨如何解决Chiplet互联中的时钟延迟、时序失配和ESD问题?
* 参考资料:
UCIe Offers Lower Power and Higher Performance via 3D Interconnect by Zuoguo (Joe) Wu, Sr. Principal Engineer, Intel Corporation/UCIe Consortium Electrical Working Group Co-Chair
*本文作者:Jenny Liao,深芯盟特约编辑
21413909ac158d.png


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则