[零组件/半导体] 中国特供版:B20、B40(6000D)GPU芯片分析

[复制链接]
查看11 | 回复0 | 4 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×

在全球科技竞争日益激烈的当下,GPU芯片作为人工智能、大数据处理等前沿领域的核心硬件,其重要性不言而喻。然而,美国的出口管制政策使得英伟达等企业推出了一系列中国特供阉割版GPU芯片,从早期的A800、H800,到后来的H20,这些芯片的出现深刻影响着中国相关产业的发展。

随着美国出口管制政策的不断变化,H20被禁后,英伟达迅速调整策略,计划推出新的中国特供版GPU。基于现有消息,B20和B40(6000D )两款芯片进入了大众视野。本文将对继H20后中国特供阉割版GPU芯片进行全面分析。
一、H20芯片回顾
H20是英伟达为中国市场设计的新一代受限版H100,基于英伟达Hopper架构,于2024年推出。其拥有96GB的HBM3内存,提供4.0TB/s的内存带宽。算力方面,H20的FP8性能为296TFlops,FP16性能为148TFlops ,与H100相比,其GPU核心数量减少41%,性能降低28%。

H20采用了COWOS先进封装技术,该技术属于2.5D先进封装,核心是将不同的芯片堆叠在同一片硅中介层实现多颗芯片互联,主要应用于AI算力芯片及HBM领域。虽然H20在计算能力、互联速度和带宽上低于其旗舰AI芯片H100和H800,但其采用Hopper架构,在推理计算领域仍具备显著优势,更适用于垂类模型训练、推理,无法满足万亿级大模型训练需求,但整体性能略高于910B。

不过,随着美国政策的变化以及中国市场需求的不断调整,H20之后,新的特供阉割版GPU芯片应运而生。
二、B20芯片解析
(一)架构与设计
B20是基于英伟达下一代Blackwell架构的芯片,是B200的阉割版。采用二代4nm工艺,在设计上另辟蹊径。面对芯片尺寸和出口管制的限制,英伟达利用NVLink高速互联技术,即使单个B20芯片性能不是最强,但通过将它们组成超大型计算集群,就如同给战斗机装上多台发动机,以集群的整体实力来提升计算能力,从而在特定场景下发挥作用。

0033396f8e041b.png
(二)性能参数推测
虽然目前关于B20的具体性能参数并未完全公开,但从其作为H20的替代品以及与B200的关系可以进行一定推测。相较于H20,B20在某些方面可能会有变化。在显存方面,可能会采用GDDR7显存,这与H20的HBM3内存有所不同,显存带宽等性能可能会受到影响。

在算力上,由于是阉割版,其单芯片的计算能力大概率低于H20以及B200,不过通过集群互联后,在大规模计算任务上可能会展现出一定的竞争力。

从定位来看,虽然目前关于B20的具体性能参数并未完全公开,但从其设计思路和市场定位可以进行一定推测。B20采用GDDR7显存,这一显存类型相较于H20的HBM3内存,在带宽等性能上可能会有所不同。英伟达推出B20的目标可能直指华为910C ,尽管单芯片性能可能有取舍,但凭借集群计算能力和成熟的CUDA生态,试图在合规前提下,在特定场景下碾压对手,守住市场份额。

不过,与华为910D相比,B20在性能上可能稍逊一筹,其未来在市场中的表现,很大程度上取决于集群技术的实际应用效果以及与其他国产芯片的竞争态势。
三、B40(6000D)芯片剖析
(一)架构特点
B40(6000D)同样基于Blackwell架构,与Hopper架构的H20不同,在架构层面就展现出了新的特性。随着英伟达架构的不断演进,Blackwell架构首次全面支持DisplayPort 2.1 UHBR20(80Gbps),突破DisplayPort 1.4a的限制,还将支持PCIe 5.0,这些特性可能会在B40上有所体现,为数据传输等带来新的提升。

003344ec8af653.png
(二)性能规格细节
据相关研报分析,B40预计将搭载GDDR7显存,其带宽约为1.7TB/s,相比H20的4TB/s大幅降低。该芯片的NVLink单向传输速度约为550GB/s,并将继续支持CUDA。从这些参数可以看出,B40在内存带宽等关键性能上被进一步阉割,这主要是为了符合美国的出口管制政策。

不过,其依然支持CUDA,这对于依赖英伟达CUDA生态的企业和开发者来说,在软件兼容性上有一定的优势,能够在一定程度上延续之前基于英伟达GPU的开发和应用。预计B40将在7月初发布,出货量预计在2025年底达到约100万片,售价可能高达约7000美元(约合人民币50424元),如此高的价格对于用户来说,在性能被阉割的情况下,采购成本显得相对较高。
四、国产替代的发展
美国多次发布芯片限令,严禁向中国提供高于3090A算力的AI芯片,这一系列限制措施严重阻碍了中国企业购买高端算力资源。但与此同时,也极大地推动了国产芯片的发展。

目前,国产芯片已取得明显进步,例如华为的昇腾系列,寒武纪的思元系列等。以壁仞科技的BR100为例,该芯片率先采用Chiplet技术、新一代主机接口PCIe 5.0、支持CXL互连协议,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别,在国内GPU芯片领域处于技术领先地位。

在算力租赁行业,也发展迅速,如算力云平台提供GPU云主机、CPU云主机等算力产品的租赁服务,并且可以按分钟计费,帮助企业和个人在无法购买昂贵算力产品时,也能够完成业务和学习需求。国产芯片在性能提升的同时,也在不断完善生态建设,以减少对国外GPU芯片的依赖,逐渐打破国外技术垄断。
五、总结与展望
从H20到B20、B40(6000D)等中国特供阉割版GPU芯片的发展历程来看,美国的出口管制政策虽然在短期内给中国相关产业带来了挑战,但从长远来看,也激发了中国在GPU芯片领域自主研发的决心和动力。

这些特供阉割版芯片在架构和性能上,一方面要符合美国的管制要求,另一方面又试图在有限的条件下满足中国市场的部分需求。然而,随着国产替代的不断崛起,国产GPU芯片在性能、技术和生态建设上逐渐取得突破,未来有望在国内市场占据更大的份额,减少对国外阉割版芯片的依赖,实现中国GPU芯片产业的自主可控和可持续发展。在全球科技竞争的大背景下,中国GPU芯片产业将在挑战与机遇中不断前行,走向更加成熟和强大的未来。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则