马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
本帖最后由 hdy 于 2025-5-23 02:17 编辑
01 Blackwell系统已全面投产,GB300第三季度推出5月19日上午,英伟达CEO黄仁勋在 COMPUTEX 2025 发表主题演讲。黄仁勋指出,英伟达已从一家芯片公司成长为一家AI基础设施公司,其发布的路线图对于全球数据中心的规划至关重要。他预言,AI将无处不在,AI基础设施将如同电力和互联网一样成为必需品,而今天的数据中心正在演变成“AI工厂”。活动现场,黄仁勋还发布了一系列重磅产品、技术更新及战略合作。 黄仁勋表示,Grace Blackwell系统,我们正在全面投入生产,但同时,我们也可以说,这个过程充满了巨大的挑战。尽管基于HGX的Blackwell系统自去年年底就已全面投产,并从今年二月开始供货,但我们现在才开始陆续让所有的Grace Blackwell系统上线。CoreWeave平台搭载该系统也已有数周时间,许多云服务提供商也已开始使用。
Grace Blackwell 300
黄仁勋承诺的,在今年第三季度,将一如既往地逐年提升平台的性能,每一年都如同精准的节拍,今年第三季度,将升级到Grace Blackwell GB300。
下方是B300的实物产品。请注意其中心部分,现在已完全采用100%液冷设计,但其他外部接口和尺寸均保持不变,因此可以直接插入现有的相同系统和机箱中。
GB200、GB300、NVLink 交换机
GB300的冷板由Cooler Master、AVC、Auras和Delta的定制生产。
Grace BlackwellGB200液冷托盘
黄仁勋还发言称,Grace Blackwell GB300系统,其推理性能相较之前提升了1.5倍。训练性能基本持平,但推理性能实现了1.5倍的增长,其算力高达40 petaflops,这大致相当于2018年Sierra超级计算机的整体性能——要知道,Sierra超级计算机配备了18,000个Volta GPU。而如今,仅这一个节点便足以取代那整台超级计算机,短短六年间,性能提升了惊人的4,000倍!这正是极致的摩尔定律的体现。请记住,我先前曾提及,NVIDIA大约每十年就能将AI计算性能提升约一百万倍(未来芯片的功耗也将大幅提升,散热需求也将剧增),我们目前依然稳健地行进在这条发展轨迹上。
英伟达GB300
英伟达服务器合作生态
英伟达液冷&数据中心基础设施合作生态
02 英伟达AI工厂计划,液冷需求将大幅增长 NVIDIA构建的几乎所有产品都具有庞大的规模。其根本原因在于,我们并非仅仅在构建传统的数据中心和服务器,我们致力于打造的是AI工厂。以CoreWeave和Oracle Cloud为例,这些设施中的机架功率密度极高,以至于必须将它们间隔得更开,以便有效分散和管理巨大的能量密度。但核心理念是,我们建造的是AI工厂,而非传统数据中心 例如,XAI公司的Colossus工厂,以及Stargate项目——一个占地400万平方英尺、功率需求高达1千兆瓦 (GW) 的宏伟工程,未来对于对于液冷需求极大。试想一下,这样一个1千兆瓦的AI工厂,其总投资规模可能高达600亿至800亿美元。在这巨额投资中,构成计算核心的电子设备和系统本身,就可能占据400亿至500亿美元。
|