我正在编写一个涉及计算给定矩阵上最大值的CUDA内核,我正在评估可能性。我找到的最佳方法是:
强制每个线程在共享内存中存储一个值,然后使用缩减算法来确定最大值(pro:最小分歧cons:共享内存在2.0设备上仅限于48Kb)
我无法使用原子操作,因为既有读取操作又有写入操作,所以线程不能通过synchthreads同步。
你有其他想法吗?
强制每个线程在共享内存中存储一个值,然后使用缩减算法来确定最大值(pro:最小分歧cons:共享内存在2.0设备上仅限于48Kb)
我无法使用原子操作,因为既有读取操作又有写入操作,所以线程不能通过synchthreads同步。
你有其他想法吗?