共享内存优化混淆

Question

5

我已经用CUDA编写了一个应用程序，每个块使用1kb的共享内存。
由于每个SM只有16kb的共享内存，总共只能容纳16个块，对吧？虽然一次只能调度8个块，但是如果某个块正在执行内存操作，另一个块将被调度到GPU上，但是所有共享内存都被其他16个已经在那里调度的块使用了。

那么，CUDA是否不会在同一个SM上调度更多的块，除非之前分配的块完全完成？

还是说它会将某些块的共享内存移动到全局内存，并在那里分配其他块？在这种情况下，我们需要担心全局内存访问延迟吗？

- peeyush

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- talonmies · Accepted Answer

它不是这样工作的。在单个SM上同时运行的块数将始终是以下条件中的最小值：

8个块
静态和动态分配的共享内存总和小于16kb或48kb的块数，具体取决于GPU架构和设置。还有共享内存页面大小限制，这意味着每个块的分配量会向上舍入到页面大小的下一个最大倍数。
每个块寄存器使用量总和小于8192/16384/32678（取决于架构）的块数。还有寄存器文件页面大小，这意味着每个块的分配量会向上舍入到页面大小的下一个最大倍数。

就是这样。没有“分页”共享内存以容纳更多块。NVIDIA为计算占用率而制作了一份电子表格，该工具包随附并可作为单独的下载提供。您可以在其中看到确切的规则。它们也在CUDA编程指南的第4.2节中讨论。