马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
持续集成/持续交付(CI/CD) 在AMD看到SemiAnalysis于去年十二月发布的深度报告之前,AMD的MI300X显卡从未参与过PyTorch的CI/CD流程。如今AMD已将MI300纳入PyTorch CI/CD体系。长期以来AMD软件以漏洞频出著称——将MI300整合至PyTorch CI将大幅提升软件稳定性,持续清除代码缺陷。 此前AMD不愿投入资源建设CI/CD系统,但我们注意到这一立场在过去四个月发生转变。在旧金山ROCm开发者见面会上,一位AMD软件工程师主动上前致谢,坦言正是由于外界推动,他们终于获得了CI资源支持。 除单元测试CI外,AMD还在TorchInductor性能测试CI中启用了MI300,实现每个torch.compile提交的性能追踪。反观NVIDIA仅在此CI中提供A100显卡,甚至未部署H100或B200。就这一特定编译测试CI而言,AMD已领先于NVIDIA。但需注意的是,AMD动态形状torch.compile的通过率仅为77%,而NVIDIA则超过90%。
AMD应在此基础上更进一步,开源所有CI/CD系统并公开仪表盘数据,使外界能查看所有ROCm库(HipBLASLt、Sglang、vLLM、TransformerEngine等)的测试通过率。目前其机器学习库中唯一公开的ROCm CI仅限PyTorch。 AMD即将启动社区开发者云 谷歌TPU能获得外部开发者青睐,部分归功于Colab免费接入及TPU研究云(TRC)提供的大规模集群访问权限。这种开放模式催生了TRC重点案例库中诸多创新项目与学术论文。早在2020年ChatGPT问世前,已有高中生利用免费TPU集群训练出与GPT-2匹敌的模型。TRC不仅提供8-16芯片小型集群,还定期向研究者开放1000+芯片超大规模集群1-2周使用权。 著名开源模型GPT-J同样基于免费TPU训练完成,其完整开源代码库详细展示了如何利用JAX操作TPU,进一步推动外部社区采用。TRC在推广TPU与支持开源社区方面取得巨大成功。 AMD开发者云计划显然效仿了谷歌模式。我们认为,若AMD能为该计划投入充足GPU资源,实现轻松免费访问,其开发者云将有效扩大硬件采用率。这是AMD对抗NVIDIA必须打赢的关键战役。衡量其成功与否的标志,将是"GPT-J时刻"是否会在AMD社区开发者云上重现。
AMD管理层的盲区——AI软件工程师薪酬 AMD在AI软件领域面临严峻挑战:缺乏竞争力的薪酬体系严重削弱其吸引顶尖人才的能力。以开发优秀AI软件著称的企业,其薪酬待遇远超AMD。 尽管薪酬并非唯一考量,但仍是工程师择业的关键因素。工程师通常会综合评估技术挑战性、企业文化与职业发展空间,但在AI软件工程等高度专业化领域,薪酬竞争力至关重要。 AI工程师圈内皆知,AMD的总包薪酬(含基本工资、限制性股票与奖金)显著落后于NVIDIA、特斯拉Dojo、OpenAI芯片团队、谷歌TPU及xAI等竞争对手。 在与顶尖AI软件工程师的对话中,多人直言加入AMD软件团队如同"移植NVIDIA工程师两年前开发的功能",而NVIDIA则提供前沿软件研发机会,例如为训练推理芯片o3构建软件生态。 即便钟情"以小搏大"场景的工程师,也倾向于选择谷歌TPU或OpenAI芯片团队——这些团队不仅薪酬更高,且因公司内部海量工作负载自成客户,对抗NVIDIA的成功概率更大。 AMD内部薪酬对标存在选择性偏差问题。通过对比Juniper Networks、思科、ARM等不以软件见长的半导体公司,AMD误以为自身薪酬具备竞争力。但若与专注AI软件(GPU内核、GEMM算法、PyTorch底层、分布式训练架构及推理引擎)的企业进行精准对标,薪酬鸿沟立现。 以同岗位对比为例:NVIDIA PyTorch团队负责人薪酬远超AMD对应职位,NVIDIA的NCCL工程师待遇同样碾压AMD的RCCL工程师。这种系统性落差导致AMD难以招揽顶尖人才。 此问题暴露了AMD管理层的战略盲区。我们相信AMD深知软件工程师对长期竞争力的重要性,希望将其置于战略核心,但错误的对标方法与粗放比较形成"认知迷雾",导致软件人才价值被长期低估,进一步拉大与直接对手的软件能力差距。 SemiAnalysis建议AMD保持AI软件工程师基本工资稳定,但大幅增加限制性股票激励。通过将薪酬与公司未来增长深度绑定,使顶尖人才利益与组织长期绩效直接挂钩。手握超50亿美元现金储备的AMD完全有能力战略投资软件人才。管理层需果断通过实质性薪酬改革优先留住并吸引高端工程师,否则将难以扭转AI市场中的落后局面。 内部开发集群亟需加大投入 过去四个月AMD内部开发集群能力显著提升,但长期来看仍不足以应对GPU研发竞争。 目前AMD宣称从云服务商处租用约8000块MI300 GPU,分布于多个集群,其中最大单集群含2000块。但深入分析显示,考虑到AMD内部采用的弹性扩展模式,实际稳定可用总量可能仅3000-4000块。虽然单节点开发资源已基本充足,但多节点与整集群开发仍受限制,严重影响大规模项目与协作研发,GPU总量与稳定性仍需大幅提升。 随着行业转向数据中心级解耦预填充优化的新型推理方案,即便开发推理方案也需要集群级资源支持。AMD当前有限的集群资源进一步制约其创新能力。 阻碍AMD扩张与创新的关键因素是其内部集群采购采用的短期弹性模式——多数合同不足一年。这与NVIDIA的多年期持续部署策略形成鲜明对比:NVIDIA工程师可自由开展高风险创意项目,无需时刻受财务管控掣肘。例如NVIDIA运营着包含数千块A100的Selene集群、两个EOS集群(分别配备4600块与11000块H100)以及数十个64-1024规模的H100/H200集群(含自有设施及OCI、Azure、CoreWeave等云服务商资源),更不必说即将部署的GB200超大规模集群。上述数据尚未计入DGX Cloud投入的数十亿美元集群。 AMD现有模式下,每块GPU使用时长都需考虑直接损益,这严重抑制了必要的前沿探索与战略研发。 AMD必须紧急转型——从不足一年的短期集群策略转向签订多年期协议,并专项投资建设10000+旗舰级GPU的超大规模集群。此举将彰显AMD对每代GPU的长期承诺,正如NVIDIA对历代GPU提供的多年软硬件支持。当前的弹性模式已严重阻碍内部研发与创新潜力,转向持续多年的投资战略将助AMD有效追逐技术优势。 凭借超50亿美元现金储备,AMD完全具备财务弹性实施战略转型。当前对季度收益的短视关注正在透支未来创新领导力。对GPU代际的多年期承诺不仅能强化长期支持能力,使内部研发更贴近客户需求,更能通过展现持续投入决心增强市场信心,巩固长期伙伴关系。
|