GDS：从AI存储看英伟达GDS的现实挑战

显示全部楼层 · 昨天 22:18

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 hdy 于 2025-5-18 22:20 编辑

随着 AI 技术迅猛发展，大模型与多模态 AI 的崛起推动数据集规模呈指数级膨胀。早期训练 GPT-3 等模型仅需几百 GB 至 1TB 数据，而如今单一多模态场景（如跨语言图文分析、工业数字孪生）的原生数据产出已轻松突破 TB 级，单个复杂任务的原始数据量已超越早期通用模型的全量训练数据总和。若遵循 OpenAI 构建 “世界模型” 的理念，整合物理、语言、生物等全领域多源异构数据，其规模将从 TB 级迈向PB 级，涵盖文本、3D 点云、分子结构、物联网时序数据等多元模态。

NVIDIA 观察到的AI存储趋势呈现数据量与算力集群的双维度扩张——正重塑传统架构的底层逻辑。随着多模态场景数据量突破TB级，训练与推理过程面临内存瓶颈，NVMe 设备迁移成为必然选择，尤其在图形神经网络（GNN）领域，实时 AI存储解决方案的需求更为迫切。传统数据加载模式已无法满足千亿参数大模型的吞吐需求，RESTful API 等新型接口的引入正在重构数据交互范式（与3FS也是采用类似思路，参考文章：DeepSeek：3FS何以超高性能支持DS大模型训练的？），例如通过标准化协议实现 AI 模型与存储资源的 “即插即用”。

AWS于2023年推出的S3 Express One Zone及其配套的S3 Connector for PyTorc，直接集成到PyTorch生态中，支持数据流式加载和检查点加速。S3 Express One Zone是一种单可用区高性能对象存储，针对低延迟场景优化，通过专用硬件和软件加速，访问速度比标准S3快10倍，延迟降至个位数毫秒，尤其适用于高频访问的小型对象（如训练中间数据、检查点）。

NVIDIA Magnum IO 是面向现代数据中心设计的 I/O 加速技术套件，旨在消除人工智能（AI）、高性能计算（HPC）和数据分析中的存储与网络瓶颈。通过整合存储 IO、网络 IO、网络计算和 IO 管理，简化并加速多 GPU、多节点系统的数据传输、访问和管理。Magnum IO 支持 NVIDIA CUDA-X™ 库，并充分利用各类 NVIDIA GPU 和 NVIDIA 网络硬件拓扑来实现更高的吞吐量和更低的延迟。

NVIDIA Magnum IO的核心技术是GPUDirect Storage (GDS)。

可以参考文章：GDS：存储与GPU内存之间的Direct Path

GDS通过采用RDMA技术，实现GPU与存储系统之间的直接数据移动，优化数据在GPU卡和存储系统之间的搬运效率，显著减少延迟并降低CPU的利用率。 GDS利用GPUDirect RDMA技术，使得远程存储系统能够直接在GPU上寻址内存，彻底消除了CPU RAM缓冲区及数据复制的瓶颈。是通过在VFS堆栈中插入新的内核驱动程序（nvidia-fs.ko和nvidia.ko）来实现，通过管理GPU内存地址空间，并将IO请求定向至CPU RAM或GPU RAM的特定区域。最终，数据得以通过PCI总线在GPU与网络接口之间高效移动，而元数据等操作则仍需CPU RAM的支持，但数据块可直接送入GPU RAM进行高速处理。

很明显，在GDS系统中，整个流程仍由CPU触发，数据块则能直接进入GPU RAM，但元数据等关键操作会使用CPU RAM，虽然从而提高效率。所以，仍然离不开CPU的调度和处理。
NVIDIA在《GPU-Initiated On-Demand High-Throughput Storage Access in the BaM System Architecture》一文中，提出了一种名为BaM（Big accelerator Memory）的新系统架构(NVIDIA与IBM等合作)，旨在通过GPU直接发起存储访问，突破传统以CPU为中心的存储访问模式瓶颈，能够轻松地、按需且细粒度地访问海量数据集，从而实现比现有解决方案更高的应用程序性能。最大的特点：BaM允许GPU线程绕过CPU，直接通过NVMe协议与SSD交互，消除CPU-GPU同步开销和I/O流量放大问题。通过将NVMe提交/完成队列和软件缓存映射到GPU内存，实现GPU对存储的细粒度按需访问（如4KB粒度)。
但是真实的生产环境中，依然存在如下挑战：（1）如何实现HDD存储、NVMe存储、内存的透明化协同加速，因为用户并不懂这些；（2）GDS如何适应用户习惯的Posix/NFS方式使用存储，或者以何种方法改变用户的习惯；（3）在生产环境中，GPFS+GDS性能并没有想象的那么好，投入和收益不成正比；无论硬件层面、软件层面，都需要考虑投入产出比，最终形成一个折中（或者叫妥协）。

[零组件/半导体] GDS：从AI存储看英伟达GDS的现实挑战

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区