CUDA：在GPU代码并行执行的同时运行CPU代码

Question

3

我有一个程序，在GPU上进行一系列计算，然后在CPU上对这些结果进行内存操作，接着取下一批数据，重复以上步骤。现在如果我能够在CPU处理内存操作的同时开始处理第二批数据，那么程序将会更快。如何实现这个功能呢？

- foges

“内存操作” - 您是指将数据传输到/从卡中，还是与卡无关的某些操作？您只需要一个线程来管理卡，然后就可以随意使用CPU的其余部分了吗？ - Rup

嗯，两者都有吧。我将结果传输到主机上，然后对数据进行处理，所以它并不是完全独立的。 - foges

2个回答

2

基本思路可以像这样：

您可以使用cudaMemcpyAsync、cudaStream和cudaEvent来获得更精细的控制CPU和GPU之间的异步工作。

正如@harrism所说，您需要使设备支持deviceOverlap以同时进行内存传输和核函数执行，但即使没有该选项，您仍然可以异步地执行与CPU上的其他计算。

编辑：deviceOverlap已经被弃用了，现在应该使用asyncEngineCount属性。

- jmsu

是的，jmsu，那正是我想做的。很高兴知道那会起作用 :) - foges

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- harrism · Accepted Answer

所有的CUDA内核调用（例如function<<<blocks, threads>>>()）都是异步的，它们会立即返回控制权给调用主机线程。因此，只需在内核调用后放置CPU工作，就可以始终并行执行CPU工作和GPU工作。

如果您还需要同时从GPU传输数据到CPU，则需要一个将deviceOverlap字段设置为true的GPU（使用cudaGetDeviceProperties()进行检查），并且您需要在单独的CUDA流中使用cudaMemcpyAsync()。

NVIDIA CUDA SDK中有示例来演示这个功能，例如“simpleStreams”和“asyncAPI”示例。