CUDA和nvcc：使用预处理器在float和double之间进行选择

Question

CUDA和nvcc：使用预处理器在float和double之间进行选择

cudapreprocessornvcc

7

问题：我有一个.h文件，如果在c/c++或者CUDA的计算能力 >= 1.3的情况下编译，希望将real定义为double。如果是在CUDA的计算能力 < 1.3的情况下编译，则将real定义为float。

经过多个小时的尝试，我写出了以下代码，但是它不起作用：

# if defined(__CUDACC__)

# warning * making definitions for cuda

# if defined(__CUDA_ARCH__) # warning __CUDA_ARCH__ is defined # else # warning __CUDA_ARCH__ is NOT defined # endif

# if (__CUDA_ARCH__ >= 130) # define real double # warning using double in cuda # elif (__CUDA_ARCH__ >= 0) # define real float # warning using float in cuda # warning how the hell is this printed when __CUDA_ARCH__ is not defined? # else # define real # error what the hell is the value of __CUDA_ARCH__ and how can I print it # endif

# else # warning * making definitions for c/c++ # define real double # warning using double for c/c++ # endif

当我使用以下命令进行编译（注意-arch标志）：

nvcc -arch compute_13 -Ilibcutil testFloatDouble.cu

我得到以下输出：

* making definitions for cuda __CUDA_ARCH__ is defined using double in cuda

* making definitions for cuda warning __CUDA_ARCH__ is NOT defined warning using float in cuda how the hell is this printed if __CUDA_ARCH__ is not defined now?

Undefined symbols for architecture i386: "myKernel(float*, int)", referenced from: ....

我知道文件会被nvcc编译两次。第一次编译是正确的（CUDACC已定义且CUDA_ARCH> = 130），但第二次发生了什么？CUDA_DEFINED已定义，但CUDA_ARCH未定义或值小于130？为什么？

谢谢你的时间。

- cibercitizen1

2个回答

3

目前我看到的唯一实用的解决方案是使用自定义定义：

#   if (!defined(__CUDACC__) ||  defined(USE_DOUBLE_IN_CUDA)) 
#       define real double
#       warning defining double for cuda or c/c++
#   else
#       define real float
#       warning defining float for cuda
#   endif

然后运行：

nvcc -DUSE_DOUBLE_IN_CUDA -arch compute_13  -Ilibcutil testFloatDouble.cu

得到以下两个编译过程的输出：

#warning defining double for cuda or c/c++
#warning defining double for cuda or c/c++

和

nvcc  -Ilibcutil testFloatDouble.cu

得到以下输出：

#warning defining float for cuda
#warning defining float for cuda

- cibercitizen1

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- talonmies · Accepted Answer

看起来你可能混淆了两件事——当nvcc处理CUDA代码时如何区分主机和设备编译轨迹，以及如何区分CUDA和非CUDA代码。这两者之间有微妙的区别。__CUDA_ARCH__回答了第一个问题，__CUDACC__回答了第二个问题。

请考虑以下代码片段：

#ifdef __CUDACC__
#warning using nvcc

template <typename T>
__global__ void add(T *x, T *y, T *z)
{
    int idx = threadIdx.x + blockDim.x * blockIdx.x;

    z[idx] = x[idx] + y[idx];
}

#ifdef __CUDA_ARCH__
#warning device code trajectory
#if __CUDA_ARCH__ > 120
#warning compiling with double precision
template void add<double>(double *, double *, double *);
#else
#warning compiling with single precision
template void add<float>(float *, float *, float *);
#else
#warning nvcc host code trajectory
#endif
#else
#warning non-nvcc code trajectory
#endif

在这里，我们有一个带有CUDA架构相关实例化的模板化CUDA内核，一个由nvcc控制的主机代码分段，以及一个用于编译未受nvcc控制的主机代码的分段。它的行为如下：

$ ln -s cudaarch.cu cudaarch.cc
$ gcc -c cudaarch.cc -o cudaarch.o
cudaarch.cc:26:2: warning: #warning non-nvcc code trajectory

$ nvcc -arch=sm_11 -Xptxas="-v" -c cudaarch.cu -o cudaarch.cu.o
cudaarch.cu:3:2: warning: #warning using nvcc
cudaarch.cu:14:2: warning: #warning device code trajectory
cudaarch.cu:19:2: warning: #warning compiling with single precision
cudaarch.cu:3:2: warning: #warning using nvcc
cudaarch.cu:23:2: warning: #warning nvcc host code trajectory
ptxas info    : Compiling entry function '_Z3addIfEvPT_S1_S1_' for 'sm_11'
ptxas info    : Used 4 registers, 12+16 bytes smem

$ nvcc -arch=sm_20 -Xptxas="-v" -c cudaarch.cu -o cudaarch.cu.o
cudaarch.cu:3:2: warning: #warning using nvcc
cudaarch.cu:14:2: warning: #warning device code trajectory
cudaarch.cu:16:2: warning: #warning compiling with double precision
cudaarch.cu:3:2: warning: #warning using nvcc
cudaarch.cu:23:2: warning: #warning nvcc host code trajectory
ptxas info    : Compiling entry function '_Z3addIdEvPT_S1_S1_' for 'sm_20'
ptxas info    : Used 8 registers, 44 bytes cmem[0]

这里要点如下：

__CUDACC__ 定义了是否由 nvcc 控制编译
在由 nvcc 或非 nvcc 控制的主机代码编译时，__CUDA_ARCH__ 总是未定义的
只有在由 nvcc 控制的设备代码编译轨迹中，__CUDA_ARCH__ 才会被定义

这三个信息足以实现针对不同 CUDA 架构的设备代码的条件编译，主机端 CUDA 代码以及完全不由 nvcc 编译的代码。虽然 nvcc 文档有时有点简略，但所有这些都包含在编译轨迹的讨论中。