CUDA如何在一个内核函数中启动新的内核调用?

3
我是CUDA编程的新手。现在,我遇到了一个问题:我正在尝试使用CUDA并行编程处理一组数据集。对于每个数据集,需要进行一些矩阵计算。
我的设计如下:
1. 启动N个线程来处理每个数据集,因为它们彼此独立且处理方法相同。
2. 在第1步中的每个线程中,我想要使用一个新函数,这个函数也像一个内核一样工作,因为它们是矩阵计算...例如,调用M个线程来并行处理矩阵计算。
是否有人知道是否可能实现这种方式?
1个回答

7
如果您使用CUDA动态并行性且您的GPU支持它,则可以从另一个内核线程中启动内核。目前支持CUDA动态并行性的GPU的计算能力为3.5。
您可以从CUDA deviceQuery示例中了解设备的计算能力。
您可以从CUDA编程指南section中了解有关如何使用CUDA动态并行性的更多信息。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接