了解 "nvidia-smi topo -m" 输出

5
为了利用系统上的GPU,我想要能够绘制一个块状图,并理解“nvidia-smi topo -m”输出所表示的连接。以下是示例输出:enter image description here enter image description here 能否有人提供这个系统的级别块状图?同时,描述这些连接也会很有帮助。我相信这将有助于许多人利用他们的多GPU系统。

这是什么节点?看起来不像DGX1。 - denfromufa
1
你尝试过从hwloc软件包中使用lstopo命令吗? - Gilles Gouaillardet
@GillesGouaillardet 好主意,我甚至没有考虑过使用MPI方面的工具。 - denfromufa
请注意,即使hwloc项目由Open MPI项目托管,但这是一个独立的软件包,与MPI库无关。请注意,您可能需要自己构建hwloc并使用--with-cuda进行配置。 - Gilles Gouaillardet
@GillesGouaillardet 怎么检查 hwloc 是否编译支持 CUDA?这样我就不能依赖包管理器安装的 hwloc 了? - denfromufa
1个回答

17
你有两个CPU插槽。每个CPU都有一个PCIe主机桥(PHB)连接到两个PCIe开关。每个(2x2)PCIe开关都连接有两个GPU,总共八个。 enter image description here

其实我非常喜欢这篇arxiv论文中的图片:https://arxiv.org/pdf/1903.04611.pdf - denfromufa
太棒了!我觉得这会帮助很多人。如果NVIDIA能将这个功能集成到nvidia-smi中,那就太棒了。 - user3731622
1
有没有什么好的资源可以帮助我理解为什么PHB可能比PIX慢?CPU本身是否参与数据复制的关键路径?系统RAM页面是否用作反弹缓冲区? - cade

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接