我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 7|回复: 0

[零组件/半导体] 英伟达NVL72机柜单爆火,DeepSeek成全球第二大AI实验室

[复制链接]
  • TA的每日心情
    难过
    昨天 14:26
  • 签到天数: 49 天

    [LV.5]常住居民I

    1239

    主题

    369

    回帖

    968

    积分

    二级逆天

    积分
    968
    发表于 前天 23:14 | 显示全部楼层 |阅读模式

    马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

    您需要 登录 才可以下载或查看,没有账号?立即注册

    ×
    hdzzi2.webp



    1、英伟达NVL72机柜:算力基础设施的新突破
    英伟达NVL72机柜的加速出货,为全球AI算力市场注入了强大动力。主流超大规模云厂商平均每周部署近1,000个NVL72机柜,且出货节奏仍在持续加快 。NVL72机柜作为英伟达推出的机柜级超节点,在硬件配置与性能表现上亮点十足。
    从硬件架构来看,整个系统由18个Compute Tray和9个Switch Tray构成。每个Compute Tray包含2个GB200超级芯片,每个GB200超级芯片又有2个Blackwell系列的B200 GPU,这使得整个机柜共拥有72个Blackwell GPU。并且每个Compute Tray还提供4个网络接口卡用于Scale-out方向的扩展,以满足不同场景下的网络需求。

    在Switch Tray方面,1个Switch Tray包含2颗NVLINK Switch芯片,整个机柜共提供18个NVLink Switch芯片,整机柜后部通过线缆将Compute Tray和Switch Tray进行互联,构建起了一个高效的数据传输网络。
    性能上,B200采用最新一代的NVLink 5连接方案,对外可提供1.8TB/s(NVIDIA采用双向计算,即单向7.2Tb/s)的NVLink连接,单个Compute Tray提供7.2TB/s(单向28.8Tb/s)带宽,NVL72整机柜的Compute Tray提供129.6TB/S的NVLink带宽。

    而NVLink5 Switch对外可提供7.2TB/s(单向28.8Tb/s)的NVLink连接,单个Switch Tray提供14.4TB/s(单向57.6Tb/s)带宽,NVL72整机柜的Switch Tray同样提供129.6TB/s的NVLink带宽,如此一来,超节点整机柜Compute Tray的GPU和Switch Tray的交换芯片之间就能够实现全连接,极大地提升了数据传输效率,解决了GPU之间的高速通信带宽和效率问题。

    通过NVLink,所有GPU都可以任意访问其他GPU的内存空间,同时,英伟达还设计了NVLink C2C,B200和Grace CPU之间采用NVLink C2C连接,创建了一个NVLink可寻址的内存地址空间,B200和Grace CPU之间的内存可以互相访问,进一步优化了内存的访问效率。

    每颗B200提供192GB的HBM3e内存,每颗Grace CPU提供480GB的LPDDR5X内存,使得每个GB200超级芯片提供384GB HBM内存和480GB LPDDR5X内存,NVL72整机柜支持13.5TB的HBM和17TB的LPDDR5X内存容量,为大规模数据处理和复杂模型训练提供了充足的内存支持 。

    2314357d916738.png

    在能耗与散热方面,GB200超级芯片的功耗为2700W,每个Compute Tray的功耗约为6.3kW,每个Switch Tray功耗超过800W,NVL72整机柜的功耗预计达到120kW,为保证设备稳定运行,采用冷板液冷进行散热,有效解决了高功耗带来的散热难题。

    此外,英伟达还对GB300配置进行了优化,通过新的Ultra架构,实现了单卡1.5倍的FP4性能提升,GPU的HBM容量从192GB提升到288GB;B300芯片功率上升到1400W,但通过电力调配技术,NVL72机柜能耗保持不变,单位算力能耗降低33% ;网络接口卡从CX7提升到CX8,光模块从800G提升到1.6T,进一步提升了网络传输性能。
    2、DeepSeek:开源模型引领中国AI实验室崛起
    独立基准测试机构Artificial Analysis的最新报告显示,中国AI实验室DeepSeek凭借其R1-0528模型,以68分的智能指数评分跃居全球第二大AI实验室,与谷歌Gemini 2.5 Pro并列,超越了马斯克的xAI、扎克伯格的Meta和Anthropic等硅谷巨头,标志着中国大模型研发正从“追赶”迈向“并跑”阶段。
    DeepSeek的R1模型自发布以来便备受关注,其在多个领域展现出了卓越的性能。在数学推理任务中,准确率高达97.3%,超越了GPT-4等顶尖模型,在AIME和MATH-500等基准测试中也展现出了卓越的推理能力和更快的响应速度。近期完成的小版本升级,即当前的DeepSeek-R1-0528版本,更是在性能上实现了质的飞跃。新版本仍然使用DeepSeek V3Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力 。

    在复杂推理任务中的表现有了显著提升,在AIME2025测试中,新版模型准确率由旧版的70%大幅提升至87.5%,在整体表现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。
    此次升级还在降低幻觉率、提升前端代码生成能力和工具调用等方面取得了突破。幻觉率降低了45% - 50%,使得模型在生成内容时更加准确可靠,减少了无意义或错误信息的输出。在前端代码生成方面,能力得到了显著增强,能够生成更稳定、高质量的代码。模型还新增了工具调用功能,例如在处理网页内容总结任务时,它能够自动爬取网页并输出结果,大大提高了工作效率。

    DeepSeek还推出了基于Qwen3-8BBase微调的DeepSeekR1-0528-Qwen3-8B模型,在数学测试AIME2024中仅次于原R1版本,性能超越了阿里的Qwen3-235B。尽管这是一个仅有80亿参数的小模型,但在数学测试里分数比拥有2350亿参数的大模型还高,甚至能和Google的Gemini 2.5打平,充分证明了其训练方法的有效性,也为资源有限的团队提供了新的思路和方向。
    DeepSeek能够取得如此成就,离不开背后研发公司杭州深度求索人工智能基础技术研究有限公司以及其创立者幻方量化的支持。幻方量化在量化投资领域多年积累的深厚底蕴和强大实力,为DeepSeek的模型训练、算法优化等筑牢了坚实的硬件根基,其储备的万张A100芯片,为DeepSeek在技术发展的赛道上飞速驰骋提供了保障。

    在开源策略上,DeepSeek完全开源R1等模型,采用MIT协议,允许开发者自由定制和二次开发,极大地吸引了全球开发者,促进了技术共享与社区协作;开放API的定价仅为OpenAI同类产品的1/10,输入每百万token仅需0.55美元,输出2.19美元,这一亲民的价格降低了中小企业进入AI领域的门槛,使得更多企业能够基于DeepSeek的技术进行应用开发,进一步推动了其在各行业的广泛应用。
    英伟达NVL72机柜的加速出货为AI算力提供了强大的硬件支撑,而DeepSeek成为全球第二大AI实验室则彰显了中国在AI模型研发领域的实力。随着硬件与模型技术的不断创新与发展,AI产业将迎来更加繁荣的未来,为各行业的数字化转型和智能化升级注入源源不断的动力。



    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    每日签到,有金币领取。


    Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

    本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

    ( 闽ICP备2024076463号-1 ) 论坛技术支持QQ群171867948 ,论坛问题,充值问题请联系QQ1308068381

    平平安安
    TOP
    快速回复 返回顶部 返回列表