CUDA块大小1024x1与32x32相比,会有性能差异吗?

4
这两种块大小(1024x1 vs 32x32)在线程调度和内存带宽方面预计如何表现?这两种块大小的性能有什么预期差异吗?请注意,两者都使用每个块1024个线程。

1
与索引相关的ALU操作数量可能会影响性能,但通常只占执行的总指令的一小部分。以两种方式编写代码并比较汇编代码的差异。 - Greg Smith
1个回答

3

线程块的尺寸,特别是当我们讨论每个线程块相同数量的线程时,并不会直接影响性能。

线程仍然分组为warp进行执行。线程块尺寸的唯一直接影响是改变内置变量,例如threadIdx.xblockIdx.x等,这不是性能问题。


有道理。谢谢你的见解! - FundamentalAxiom

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接