[业界/制造] AMD 2.0时代将至,MI450X将如何助其挑战英伟达?(一):AMD加速AI软件攻坚

[复制链接]
查看10 | 回复0 | 2 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×


2005145aeae6d7.png
自SemiAnalysis于2024年12月发文指出AMD软件平庸与可用性不足以来,AMD在过去四个月里针对我们提出的多项问题加速改进。我们认为AMD展现的新紧迫感对其追赶英伟达具有重大积极意义。尽管AMD已进入战时状态,但前方仍有诸多战役待攻克。
本报告将深入分析AMD已实现的积极变革。虽然其正走在正确轨道上,但仍需大幅增加GPU研发预算并加大对AI人才的投入。我们将提出更多建议,并揭示AMD管理层的盲区:由于薪酬对标错误的企业群体,他们在争夺AI软件工程师的竞争中处于劣势。
我们还将探讨AMD产品发布节奏使其现款产品直接对标英伟达次世代产品的困境。MI325X与B200同期发布导致客户兴趣平平,如今客户将8卡MI355X与整机柜72卡GB200 NVL72方案直接对比。我们的加速器需求模型追踪到微软在2024年初对AMD GPU的失望情绪及后续订单缺失。
目前我们观察到OpenAI通过甲骨文及其他部分大客户对AMD GPU重燃兴趣(微软仍缺席),但前提是AMD需提供优惠定价。我们还将揭示AMD全面追赶英伟达的窗口期可能在2026年下半年开启,届时AMD将推出整机柜解决方案。其MI450X IF64与MI450X IF128型号有望对标英伟达同期发布的VR200 NVL144整机柜方案。
SemiAnalysis正与英伟达及AMD合作开展Hopper与CDNA3架构GPU的推理基准测试,未来数月将发布深度评测报告。
核心发现
1.我们向苏姿丰呈递了12月AMD报告的研究成果,她承认ROCM软件堆栈存在诸多缺陷,并展现出强烈改进意愿。
2.过去四个月,AMD在AI软件堆栈领域取得快速进展。
3.2025年1月,AMD启动开发者关系建设计划,由AI软件负责人Anush Elangovan主导,重点通过技术推特与线下活动对接外部开发者。
4.同期,AMD认识到外部开发者生态对CUDA成功的关键作用,正式确立"开发者优先"战略。
5.在我们12月发文前,PyTorch持续集成/持续交付(CI/CD)体系完全缺失MI300X支持。目前AMD已将MI300纳入PyTorch CI/CD,四个月间取得显著突破。
6.AMD计划效仿谷歌TPU研究云(TRC),于6月Advancing AI大会推出开发者云平台,成败标准将取决于能否在其社区云复现GPT-J级别的突破。
7.AI软件工程师薪酬体系是AMD管理层盲区,其总包待遇显著落后于英伟达等AI软件领军企业。
8.尽管内部开发集群在过去四个月大幅升级,AMD的长期GPU开发生态竞争力仍显不足。
9.AMD亟需大幅增加研发投入,为软件团队提供更多GPU资源。当前对季度利润的短视关注正在削弱其长期竞争力——其GPU总量不及英伟达二十分之一。
10.构建完善的Python生态是黄仁勋的战略重点,英伟达已在全堆栈实现Python接口。ROCM在此领域的缺失对AMD开发者体验构成长期威胁。
11.尽管RCCL有所进步,但GTC 2025发布的新NCCL特性使两者差距持续扩大。
12.AMD在软件基础设施层(Kubernetes、SDC检测器、健康检查等)虽取得进展,但速度远落后于其机器学习库的迭代节奏。
13.AMD目前缺乏对分解式预填充、智能路由、NVMe键值缓存分层等推理功能的支持。英伟达开源的分布式推理框架Dynamo进一步巩固了其GPU服务优势。
14.MI355X仍无法与英伟达整机柜级GB200 NVL72方案竞争,AMD试图将其对标英伟达风冷HGX方案,但这与客户的实际采购对比逻辑不符。
15.若执行得当,AMD 2026下半年推出的MI450X整机柜方案有望与英伟达VR200 NVL144正面竞争。
AMD有什么新进展?
在我们发布AMD报告数小时后,苏姿丰即联系我们安排与工程团队的深度沟通。次日太平洋时间早7点,我们向苏博士详细汇报了过去五个月协助AMD团队修复软件漏洞、实施各类工作负载基准测试的经验。
我们展示了团队提交给AMD工程师的数十份漏洞报告。苏博士对ROCM用户体验问题表示关切,承认软件堆栈存在多重缺陷,并展现出强烈改进决心。在随后90分钟里,苏博士带领工程团队就我们的核心建议提出大量技术细节质询。
200514a138b833.png
这种自上而下的态度转变已渗透整个组织。AMD当前以战时状态加速修补软件漏洞,这与2024年其公关部门拒绝公开承认软件重大缺陷形成鲜明对比。
2025年以来,AMD公开承认其软件漏洞数量远超英伟达,但正通过快速迭代与社区协作推动ROCM向行业标准看齐。AI软件负责人Anush Elangovan在此过程中表现尤为活跃。
20051417cd66c4.png




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

hdy

280

主题

319

回帖

714

积分

二级逆天

积分
714