我想了解在GPU上可以调度的线程/线程组的“网格”。我正在使用Direct Compute,因此我将使用该API给出一个具体的示例。例如,如果我调用Dispatch(2,2,2),我理解它会总共调度2x2x2=8个线程组。但是,如果我调用Dispatch(8,1,1)有什么区别呢?这也会调度8x1x1=8个线程组吗?是否存在性能差异?
附注:与GPU上的线程相同的问题。在计算(.hlsl)文件中声明的numthreads(2,2,2)和numthreads(8,1,1)之间有什么区别?
任何帮助都将不胜感激。
附注:与GPU上的线程相同的问题。在计算(.hlsl)文件中声明的numthreads(2,2,2)和numthreads(8,1,1)之间有什么区别?
任何帮助都将不胜感激。