线程块的尺寸,特别是当我们讨论每个线程块相同数量的线程时,并不会直接影响性能。 线程仍然分组为warp进行执行。线程块尺寸的唯一直接影响是改变内置变量,例如threadIdx.x、blockIdx.x等,这不是性能问题。