如何从CUDA核函数中返回单个变量？

Question

如何从CUDA核函数中返回单个变量？

23

我有一个CUDA搜索函数，它计算一个变量。如何将其返回？

__global__ 
void G_SearchByNameID(node* Node, long nodeCount, long start,char* dest, long answer){
    answer = 2;
}

cudaMemcpy(h_answer, d_answer, sizeof(long), cudaMemcpyDeviceToHost);
cudaFree(d_answer);

对于这两行代码，我都得到了以下错误：错误：类型为“long”的参数与类型为“const void *”的参数不兼容

- Pouya BCD

2个回答

24

要获取单个结果，您需要使用Memcpy，即：

#include <assert.h>

__global__ void g_singleAnswer(long* answer){ *answer = 2; }

int main(){

  long h_answer;
  long* d_answer;
  cudaMalloc(&d_answer, sizeof(long));
  g_singleAnswer<<<1,1>>>(d_answer);
  cudaMemcpy(&h_answer, d_answer, sizeof(long), cudaMemcpyDeviceToHost); 
  cudaFree(d_answer);
  assert(h_answer == 2);
  return 0;
}

我猜测错误是由于您传递了一个长整型的值，而不是长整型值的指针导致的。

- fabrizioM

你不一定需要使用memcpy()函数 - 还有其他选择，比如@wich的回答。除非你认为复制是最好的/唯一现实的选择，否则请勿使用-1。 - einpoklum

5

请注意，另一个选项确实会执行memcpy操作（它在名称cudaMemcpyFromSymbol中）。这个答案使用了动态分配，相对于使用全局变量的另一个选项更适用于多线程应用程序。 - rgov

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- wich · Accepted Answer

我一直在使用__device__变量来达到这个目的，这样你就不必费心去处理cudaMalloc和cudaFree，也不必将指针作为内核参数传递，这样可以节省内核中的寄存器。

__device__ long d_answer;

__global__ void G_SearchByNameID() {
  d_answer = 2;
}

int main() {
  SearchByNameID<<<1,1>>>();
  typeof(d_answer) answer;
  cudaMemcpyFromSymbol(&answer, "d_answer", sizeof(answer), 0, cudaMemcpyDeviceToHost);
  printf("answer: %d\n", answer);
  return 0;
}