我是CUDA编程的新手。现在,我遇到了一个问题:我正在尝试使用CUDA并行编程处理一组数据集。对于每个数据集,需要进行一些矩阵计算。
我的设计如下:
1. 启动N个线程来处理每个数据集,因为它们彼此独立且处理方法相同。
2. 在第1步中的每个线程中,我想要使用一个新函数,这个函数也像一个内核一样工作,因为它们是矩阵计算...例如,调用M个线程来并行处理矩阵计算。
是否有人知道是否可能实现这种方式?
我的设计如下:
1. 启动N个线程来处理每个数据集,因为它们彼此独立且处理方法相同。
2. 在第1步中的每个线程中,我想要使用一个新函数,这个函数也像一个内核一样工作,因为它们是矩阵计算...例如,调用M个线程来并行处理矩阵计算。
是否有人知道是否可能实现这种方式?