动态并行内核启动的开销受哪些因素影响？

Question

3

当您在GPU上从主内核中启动次要内核时，会有一些开销。哪些因素影响或影响此开销的数量？例如，内核代码的大小，正在启动内核的SM的占用率，内核参数的大小等。

为了这个问题，让我们包容，并将“开销”定义为以下时间间隔的总和：

开始：一个SM看到启动指令结束：一个SM开始执行子内核的指令

加上

开始：最后一个SM执行任何子内核的指令（或者子内核指令的最后写入提交到相关的内存空间）结束：在子内核启动之后执行父级下一个指令。

- einpoklum

你提到的“开销”是否仅包括从启动调用到子内核启动的时间段？ - xhg

@aahung：请查看编辑。 - einpoklum

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Florent DUGUET · Accepted Answer

这个答案并非基于实验或设备端运行时实现的知识，而是关于执行操作所需做的思考。

我认为启动的网格配置和寄存器使用会产生一些影响，因为需要将状态保存在某个地方才能使SM继续移动到另一个内核。此外，启动的块数可能会产生一些影响，因为我不知道设备运行时如何处理所有配置。另一方面，我不明白被调用者寄存器使用/代码大小为什么会有很大的影响。

同样，这里没有任何测试/实验来证明以上任何内容。