我想知道在C/C++中执行cuda内核调用的开销,例如以下代码:
```c++ cuda_kernel<<>>(args); ```
```c++ cuda_kernel<<>>(args); ```
somekernel1<<<blocks,threads>>>(args);
somekernel2<<<blocks,threads>>>(args);
somekernel3<<<blocks,threads>>>(args);
我之所以问这个问题,是因为我目前正在构建的应用程序会反复调用多个内核(在调用之间不会重新读取/写入设备内存),我想知道将这些内核调用包装成单个内核调用(其中一些内核变为设备函数)是否会对性能产生任何有意义的差异。