假设我有8个线程块,我的GPU有8个SM,则GPU如何将这些线程块分配给SM?
我发现一些程序或文章建议以广度优先的方式进行,也就是说,在本例中每个SM运行一个线程块。然而,根据一些文件,如果GPU内核受到延迟限制,则增加占用率可能是一个好主意。如果可以的话,可能会推断出8个线程块将在4个或更少的SM上运行。
我想知道哪种情况才是真实的情况。提前感谢您。
假设我有8个线程块,我的GPU有8个SM,则GPU如何将这些线程块分配给SM?
我发现一些程序或文章建议以广度优先的方式进行,也就是说,在本例中每个SM运行一个线程块。然而,根据一些文件,如果GPU内核受到延迟限制,则增加占用率可能是一个好主意。如果可以的话,可能会推断出8个线程块将在4个或更少的SM上运行。
我想知道哪种情况才是真实的情况。提前感谢您。