马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
AMD在解耦式预填充推理与NVMe KV缓存分层领域的缺失 当前AMD的推理功能支持存在显著短板,包括解耦式预填充、智能路由和NVMe KV缓存分层等关键特性缺失。解耦式服务部署已成为行业标准,上月NVIDIA更是开源了分布式推理框架Dynamo,进一步推动该技术的普及。解耦式预填充将预填充阶段与解码阶段分配到不同GPU执行,甚至谷歌也推出了自研解耦式推理框架。
相比而言,NVIDIA的Dynamo智能路由能够在多GPU推理部署中对每个token进行智能分配。在预填充阶段,该功能确保输入的token均匀分布到执行预填充的不同GPU上,从而避免任何特定专家节点(expert)出现瓶颈。在解码阶段,它则保证序列长度和请求在解码GPU间的均衡分布。对于流量较高的专家节点,Dynamo提供的GPU规划器(GPU Planner)可通过创建副本来维持负载平衡。值得注意的是,该路由机制还支持跨模型副本(replica)的负载均衡,而AMD的vLLM及其他多数推理引擎均未实现此功能。
Dynamo的GPU规划器是预填充节点与解码节点的自动扩缩容系统,能够根据日内自然波动的需求弹性调配资源。其在MoE模型中的独特价值体现在:在预填充节点和解码节点中实现多个专家节点的负载均衡;为高负载专家节点动态扩容GPU资源‘’根据需求在预填充与解码节点间重新分配资源以最大化利用率。该机制还支持灵活调整预填充与解码GPU的比例——这对需要大量上下文分析但生成内容较少的深度研究场景(如Deep Research)尤为重要。
NVMe KV缓存分层技术突破 NVIDIA Dynamo的KV缓存卸载管理器(KV-Cache Offload Manager)通过将历史对话的KV缓存保存至NVMe存储(而非直接丢弃),显著提升预填充阶段的整体效率。当用户进行连续多轮对话时,传统推理系统需要重新计算之前对话的KV缓存,而Dynamo可直接从NVMe快速检索历史缓存数据。
这种技术突破带来三重收益:释放预填充节点算力以处理更多新请求、降低预填充部署的硬件规模需求,以及通过缩短KV缓存准备时间大幅提升首token响应速度。
随着强化学习验证(RLVR)与多智能体工具调用系统的普及,此类缓存管理技术的重要性将持续凸显。 对AMD的15项战略建议 我们真诚期望AMD成为NVIDIA的有力竞争者。尽管AMD过去四个月取得显著进展,但仍需实施以下关键变革: 1.保持紧迫感:必须保持甚至加强危机意识以缩小与NVIDIA的差距。 2.薪酬体系改革:AI软件工程师总包薪酬(基本工资+RSU+奖金)因错误对标半导体公司(而非顶尖AI软件企业)严重缺乏竞争力。建议大幅提升RSU占比,使人才收益与公司成长深度绑定。 3.Python生态建设:应在ROCm堆栈各层级(而不仅是内核开发DSL)重点投资Python接口。 4.开发者关系团队扩容:需组建20+专职开发者关系工程师团队,通过高频线下活动深化社区互动。 5.创办开发者大会:效仿NVIDIA GTC,举办年度线下“ROCm开发者大会”,设置3-4天多轨道议程(涵盖内核开发、图编译器、HIP/Triton迁移等)。 6.加速推理框架开发:目前缺乏对解耦式预填充与NVMe KV缓存分层的一流支持,需快速推进以避免落后。 7.配置专属计算集群:为RCCL团队提供至少1,024块MI300级GPU的专属持久集群。 8.浮点性能透明化:公开新模型训练时的实际MFU(模型浮点利用率)与单GPU TFLOP/s数据。当前AMD宣传的TFLOP/s虚标程度甚至超过NVIDIA。 9.容器调度优化:投入资金聘请SLURM维护团队SchedMD提供咨询服务,实现与NVIDIA Pyxis对等的“sudo srun --container-name=pytorch”式便捷操作。 10.CI/CD全面开源:公开所有ROCm库(HipBLASLt/Sglang/vLLM/TransformerEngine等)的CI/CD系统与仪表盘,当前仅PyTorch CI对外可见。 11.集群采购战略转型:从短期租赁(合同普遍不足1年)转向多年期采购,确保对每代GPU的长期支持能力(当前内部MI300集群预计2027年因合同到期大幅缩减)。 12.基础设施层加速:尽管Kubernetes/SLURM/Docker等基础设施层有所改进,但其进展速度远落后于机器学习库发展。 13.学术生态建设:效仿黄仁勋向伯克利Sky实验室、CMU Catalyst团队等学术机构捐赠实体GPU设备,通过此举获取品牌声誉。 14.集群管理模式革新:摒弃“按GPU小时计费”的损益管控模式,建立持久化多年度集群(如NVIDIA的A100 Selene集群、EOS H100集群)。 15.消除内部资源壁垒:当前突发性算力需求常因无法说服“容量看门人”而受阻,需构建灵活资源分配机制(AMD手握50亿美元现金储备完全具备财务可行性)。 执行层面的深层挑战 AMD管理层存在两大战略盲区: ·薪酬对标偏差:错误选择Juniper Networks、思科等非AI软件强企作为薪酬基准,导致人才竞争力持续流失。 ·集群部署短视:当前内部集群采用短期租赁模式(多数合同不足1年),严重制约长期研发投入。反观NVIDIA通过多年期集群部署(如Selene A100集群、EOS H100集群),为工程师提供高风险创新项目的试错空间。 唯有打破这些结构性桎梏,AMD方能在AI算力竞赛中实现真正突破。
|