CUDA目前不支持嵌套内核。
具体来说,我有N个M维数据。要处理每个N数据点,需要按顺序运行三个内核。由于不允许嵌套内核,因此我不能创建一个调用这三个内核的内核。因此,我必须逐个数据点进行串行处理。
一种解决方案是编写一个包含所有其他三个内核功能的大内核,但我认为这将是次优的。
有人可以建议如何使用流并保留三个较小内核来并行运行N个数据点。
谢谢。
具体来说,我有N个M维数据。要处理每个N数据点,需要按顺序运行三个内核。由于不允许嵌套内核,因此我不能创建一个调用这三个内核的内核。因此,我必须逐个数据点进行串行处理。
一种解决方案是编写一个包含所有其他三个内核功能的大内核,但我认为这将是次优的。
有人可以建议如何使用流并保留三个较小内核来并行运行N个数据点。
谢谢。