拷贝到CUDA常量内存时出现无效设备符号

5

我有几个与图像处理相关的应用程序文件。在进行一些图像处理算法时,图像的行数和列数不会发生变化,因此我尝试将这些值存储在常量内存中。我的应用程序如下:

Imageproc.cuh

...
...
__constant__ int c_rows;
__constant__ int c_cols;

#ifdef __cplusplus
   extern "C"
   {
#endif
   ...
   ...
#ifdef __cplusplus
   }
#endif

Imageproc.cu

...
...

int algorithm(float *a, const int rows, const int cols){
   ...
   ...
   checkCudaError(cudaMemcpyToSymbol(&c_rows, &rows, sizeof(int)));
   checkCudaError(cudaMemcpyToSymbol(&c_cols, &cols, sizeof(int)));

   dim3 block(T, T);
   dim3 grid(cols/T+1, rows/T+1);

   kernel<<<grid, block>>>( ... );
   ...
   ...

}

代码编译通过,但运行程序时出现错误: invalid device symbol cudaMemcpyToSymbol(&c_rows, &rows, sizeof(int))

我不能将这些变量放入常量内存中吗?或者我错过了什么?


也许我最近对CUDA有些陌生了,但我认为cudaMemcpyToSymbol需要一个字符串作为目标符号名称? - Paul R
1
@PaulR:这在CUDA 4中已被弃用,并在CUDA 5中被删除。现在直接传递符号(这是有效的,因为CUDA在内部使用正确的ELF头和链接器)。 - talonmies
@talonmies:谢谢你确认我失去联系的事实。;-) - Paul R
1个回答

11

如果您的符号声明如下:

__constant__ int c_rows;

那么正确的调用 cudaMemcpyToSymbol 就是:

int rows = 5;
cudaMemcpyToSymbol(c_rows, &rows, sizeof(int)));

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接