CUDA：HtoD和DtoH带宽之间的差异

Question

CUDA：HtoD和DtoH带宽之间的差异

3

又是一个与带宽相关的问题。我预计设备到主机带宽和主机到设备带宽的图表应该是相似的，但我发现两者之间存在显着差异。考虑到两者都遵循相同的路线，因此有效带宽应该是相同的，不是吗？测试平台由总共12个Intel Westmere CPU（分布在两个插槽上），4个带有4个PCIe Gen2 Express插槽的Tesla C2050 GPU组成。使用来自NVidia代码示例的bandwidthtest程序。 enter image description here

从主机复制到设备的cudamemCpy的开销是什么？

- Sayan

有趣的问题。我的M2050似乎得到了类似的结果，而我的S1070则得到了相反的结果。结果非常相似 - 就像你的一样 - 但我也想知道差异出在哪里。 - Patrick87

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- harrism · Accepted Answer

首先，我认为这两个曲线是相似的。我可以诚实地说，在我使用过的任何系统中，包括 CUDA 和图形（OpenGL / D3D）测试，我都没有看到对称的 PCI-e 带宽，因此我不认为这是应该让您担心的事情，特别是这种小的差异。

至于您的其他PCI-e带宽问题，答案是相似的——驱动程序可能会针对不同类型和大小的传输使用不同的策略，尝试获得最高的吞吐量。

实际吞吐量取决于许多因素，包括 GPU 的类型，尤其是所使用的主机芯片组。