OpenCL：如何在主机和设备缓冲区之间实现并行写入？

Question

OpenCL：如何在主机和设备缓冲区之间实现并行写入？

c++bufferopencl

3

我有一个很大的cl_mem缓冲区（100百万个浮点数）。我试图减少从主机填充数据所需的时间（我必须多次从主机传递数据到设备，目前我每次都重新初始化缓冲区）。

与其一遍又一遍地使用clCreateBuffer / CL_MEM_COPY_HOST_PTR进行初始化，似乎更有效的方法是初始化缓冲区一次，然后每次更新其数据时采用多线程方法（因此多个CPU线程同时更新子集的数据）。

这种方法可行吗？我已经研究了clEnqueueWriteBuffer，虽然它允许更新缓冲区的子集，但似乎仍然会由命令队列按顺序执行多个调用。我需要多个命令队列吗？这种方法可行吗？

- Tyson

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- pmdj · Answer 1

从您的问题中，我们并不能完全清楚您的初始化/更新是否每次相同，或者整个缓冲区是否需要在运行之间进行更新。显然，最简单的加速方法是消除任何重复的努力，不要多次复制相同的数据。

您的测量结果是否表明您不受CPU和设备之间接口的限制？因为如果您每次需要复制N MB，您的设备通过B MB/s的接口连接到CPU/系统内存，并且复制时间与N/B秒没有很大的差异，那么任何多线程都无法帮助您。

如果您受到某些CPU计算的顺序本质和随后的复制到缓冲区的限制，您可以使用clEnqueueWriteBuffer()的异步变体开始复制第一个数据块，同时计算下一个数据块等。请注意，clEnqueueWriteBuffer()/CL_MEM_COPY_HOST_PTR通常利用设备的DMA引擎，这通常不需要主机CPU的太多干预，因此可以完全与计算并行运行。(主机内存带宽当然像往常一样被共享。)

如果这对你的目的来说太麻烦了，可以使用clEnqueueMapBuffer将缓冲区映射到主机应用程序的地址空间中可能会很有用。这允许任意数量的线程同时访问其中的任意区域。但要注意，这并非万无一失的解决方案，除非你的OpenCL实现明确指定了如何在实践中实现它，否则它可能会使事情变得更糟，因为它可能会比先前复制更多数据。

如果您的设备内核实际上没有读取缓冲区的所有内容（而且您事先不知道它需要哪些部分），或者可能仅在一个良好且可预测的模式下精确地读取了所有内容一次，但是您的主机代码需要读取和写入大量数据或写入随机位置，则可以尝试使用CL_MEM_USE_HOST_PTR创建的缓冲区。这并非在所有实现中都是零拷贝，但是其思想是为设备提供直接访问主机内存的权限。您仍然受到设备上行接口带宽的限制，而且延迟通常比设备内存要差得多，但是如果您的设备实际上不需要读取所有内容，则这可能会更快，因为您不必将整个缓冲区推送到管道中。

最后，如果您的CPU以某种方式对数据进行预处理/解包，则可以尝试将其转移到设备上。