设计工具
存储

配有美光6500 ION 固态硬盘的WEKA存储支持256个AI加速器

韦斯·瓦斯克| 2023年11月

美光最近公布了我们的研究结果 MLPerf 存储 v0.5在美光®9400 NVMe™固态硬盘上. 这些结果突出了高性能NVMe 固态硬盘作为AI服务器中的本地缓存, 而美光9400 NVMe固态硬盘在这种情况下表现非常好. 然而,大多数人工智能训练数据并不存在于本地缓存中,而是存在于共享存储中. 为 SC23,我们决定测试相同的MLPerf 存储 AI工作负载 WEKA 存储集群由30TB供电 美光6500 ION NVMe固态硬盘.

WEKA是一个分布式的, 为AI工作负载设计的并行文件系统, 我们想知道MLPerf 存储 AI工作负载如何在高性能SDS解决方案上扩展. 研究结果很有启发性, 帮助我们为当前一代人工智能系统提供大小建议,并暗示未来人工智能存储系统将需要大量吞吐量.

首先,快速回顾一下MLPerf 存储
MLCommons 维护和开发六个不同的基准套件,并正在开发开放数据集,以支持未来最先进的模型开发. MLPerf存储基准套件是MLCommons基准集合的最新成员.

MLPerf 存储着手解决两个挑战, 等, 当描述人工智能训练系统的存储工作量时——人工智能加速器的成本和可用数据集的小尺寸.

有关MLPerf 存储生成的工作负载的深入研究和基准测试的讨论, 请参阅我们之前的博客文章:

接下来,让我们检查一下正在测试的WEKA集群
我的队友苏吉特写了一篇 今年早些时候发布的 描述集群在合成工作负载下的性能. 查看完整结果的帖子.

集群由6个存储节点组成,每个节点配置如下:

在总, 该集群提供838TB的容量和, 对于高队列深度的工作负载, 达到200gb /s.

最后,让我们回顾一下这个集群在MLPerf 存储中的表现
快速注意:这里显示的结果是未经验证的,因为它们没有提交给MLPerf 存储进行审查. 此外,MLPerf 存储基准也从v0开始进行了更改.第一个2024版本从5到下一个版本. 这里给出的数字使用与v0相同的方法.5 .每个客户端发布独立的数据集, 独立客户端, 客户端的加速器共享一个屏障).

MLPerf 存储基准模拟 英伟达®V100 0中的加速器.5版本. 的 NVIDIA DGX-2服务器 有16个V100加速器. 对于这个测试, 我们展示了WEKA集群上支持的客户机数量,其中每个客户机模拟16个V100加速器, 比如NVIDIA DGX-2.

此外,半.MLPerf存储基准的第5部分实现了两种不同的模型,Unet3D和BERT. 通过测试, 我们发现BERT不会产生显著的存储流量, 我们将集中在Unet3D上进行测试. (Unet3D是一个3D医学成像模型.)

该图显示了给定数量的客户端节点对存储系统的总吞吐量. 记住,每个节点有16个模拟加速器. 此外, 被认为是“成功的,给定数量的节点和加速器需要保持大于90%的加速器利用率. 如果加速器低于90%, 这表示加速器在等待数据时的空闲时间.

在这里,我们看到六个节点的WEKA存储集群支持16个客户机, 每个模拟16个加速器-总共256个模拟加速器-并达到 91 GB / s 的吞吐量.

这个性能相当于16个NVIDIA DGX-2系统(每个系统有16个V100 gpu), 这是一个六节点WEKA集群支持的非常多的AI系统.

V100支持PCIe Gen3 GPU, NVIDIA几代GPU的性能提升速度远远超过了平台和PCIe一代. 在单节点系统中, 我们发现模拟的NVIDIA A100 GPU在此工作负载下的速度要快四倍.

最大吞吐量为91 GB / s, 我们可以估计这个WEKA部署将支持8个DGX A100系统(每个系统有8个A100 gpu).

展望H100 / H200 (PCIe Gen5)和X100 (PCIe Gen6)的未来, 尖端的人工智能训练服务器将推动大量的吞吐量.

今天的, WEKA存储和美光6500 NVMe固态硬盘是容量的完美结合, 性能和可扩展性为您的AI工作负载.

请继续关注我们对AI存储的探索!

SMTS系统性能工程师

韦斯Vaske

韦斯Vaske是美光公司的首席存储解决方案工程师.