NVIDIA GPU上CUDA Kernel的最高吞吐量

Question

NVIDIA GPU上CUDA Kernel的最高吞吐量

5

我对运行在GPU上的内核吞吐量有疑问。假设它的占用率为0.5，块大小为256: 编程指南指出最好有许多块，这样它们就可以隐藏存储器延迟等。但我不明白为什么这是正确的。因为一旦内核每个流式多处理器的线程束数= 24，即3个块，它将达到峰值吞吐量。因此，拥有超过24个线程束（或3个块）对吞吐量不会产生任何影响。

我有什么遗漏吗？有人能纠正我吗？

- Zk1001

2个回答

1

如果您的CUDA启用卡上只有一个SM，那么拥有超过3个块也不会改变吞吐量。通常单个GPU中有8个或更多SM。

此外，运行在一个SM上的块数并不仅仅基于warp数量。这只是一个限制因素，还有许多其他因素。CUDA Occupancy Calculator是一个很好的工具，可以查看内核的占用情况。

- jwdmsd

如果我的卡上有多个SM，比如16个，那么吞吐量会发生什么变化呢？我知道有Cuda occupancy calculator，但它在这里并没有帮助。我的问题是，“拥有足够的warp（所有warp都是活动状态）和拥有超过足够的warp（你有一些活动warp，其他warp处于空闲状态）之间的区别是什么？”我敢打赌答案不会很简短。 - Zk1001

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- harrism · Accepted Answer

虽然低占用的SM不能充分隐藏延迟，但重要的是要理解这一点：高占用并不等于高吞吐量！占用只是衡量SM在任何给定时刻可选择多少工作的一种方式。拥有更多的常驻warp使SM能够在其他warp等待结果（内存访问或计算结果 - 两者都具有非零延迟）的情况下执行更多的有效工作。吞吐量是每秒完成的工作量的度量标准，尽管它可能受到延迟（因此也可能受到占用）的限制，但它也可能受到内存带宽、指令吞吐量（执行单元数量）和其他因素的限制。编程指南中提到使用多个线程块比仅使用一个大线程块更好的原因是因为有时候最好能够从不仅是其他warp而且还从其他块发出工作。以下是一个例子：假设您的大线程块必须从全局内存（高延迟）加载数据并将其存储到共享内存（低延迟），然后必须立即执行__syncthreads()。在这种情况下，当一个warp完成其数据加载并将其写入共享内存时，它必须等待所有其他块中的线程完成相同的操作。对于大块来说，这可能需要相当长的时间。但是如果有多个较小的线程块占用SM，则SM可以在等待第一个块满足__syncthreads时切换并执行其他块的工作。这可以帮助减少GPU空闲时间并提高效率。您不一定想要非常小的块（因为Fermi上的SM最多支持8个常驻块），但使用128-512个线程的块通常比使用1024个线程的块更有效。