CUDA:如何为类的数据成员分配内存

4
假设我有这个类:
class Particle
{
    double *_w;
};

我希望将nParticlesParticle对象发送到我的内核。为这些对象分配空间很容易:

Particle *dev_p;
cudaStatus = cudaMalloc((void**)&dev_P, nParticles * sizeof(Particle));
if (cudaStatus != cudaSuccess) {
    fprintf(stderr, "cudaMalloc failed!");
    goto Error;
}

假设 nParticles 为100。现在我需要为 Particle 对象中的每个 _w 分配 300 double。我该怎么做呢?我尝试了以下代码:
for( int i = 0; i < nParticles; i++){
    cudaStatus = cudaMalloc((void**)&(dev_P[i]._w), 300 * sizeof(double));
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaMalloc failed!");
        goto Error;
    }
}

但是当我访问 dev_p[i]._w[j] 时,使用 Nsight 进行调试会停止。


指针 dev_P 存储了设备内存块的地址。当您在主机上对其进行解引用,例如 dev_P[i],您正在尝试访问先前分配的设备内存地址值相同的主机内存。 - kangshiyin
2个回答

11

也许你应该包含一个完整的简单示例。(如果我编译上面的代码并在Linux上运行它,我会在第二个cudaMalloc操作处得到一个段错误)。我看到的一个问题是,在第一步中你已经在设备内存中分配了粒子对象,当你去分配_w指针时,你正在传递一个指向已经在设备内存中的指针给cudaMalloc。你应该传递一个基于主机的指针给cudaMalloc,然后它会将其分配到设备(全局)内存中。

我认为符合你示例的一个可能的解决方案如下:

#include <stdio.h>

#define cudaCheckErrors(msg) \
    do { \
        cudaError_t __err = cudaGetLastError(); \
        if (__err != cudaSuccess) { \
            fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
                msg, cudaGetErrorString(__err), \
                __FILE__, __LINE__); \
            fprintf(stderr, "*** FAILED - ABORTING\n"); \
            exit(1); \
        } \
    } while (0)

class Particle
{
    public:
    double *_w;
};

__global__ void test(Particle *p){

  int idx=threadIdx.x + blockDim.x*blockIdx.x;

  if (idx == 2){
    printf("dev_p[2]._w[2] = %f\n", p[idx]._w[2]);
    }
}


int main() {
  int nParticles=100;
  Particle *dev_p;
  double *w[nParticles];
  cudaMalloc((void**)&dev_p, nParticles * sizeof(Particle));
  cudaCheckErrors("cudaMalloc1 fail");

  for( int i = 0; i < nParticles; i++){
    cudaMalloc((void**)&(w[i]), 300 * sizeof(double));
    cudaCheckErrors("cudaMalloc2 fail");
    cudaMemcpy(&(dev_p[i]._w), &(w[i]), sizeof(double *), cudaMemcpyHostToDevice);
    cudaCheckErrors("cudaMemcpy1 fail");
    }
  double testval = 32.7;
  cudaMemcpy(w[2]+2, &testval, sizeof(double), cudaMemcpyHostToDevice);
  cudaCheckErrors("cudaMemcpy2 fail");
  test<<<1, 32>>>(dev_p);
  cudaDeviceSynchronize();
  cudaCheckErrors("kernel fail");
  printf("Done!\n");

}

在这里,我们正在创建一组分离的指针,用于cudaMalloc目的,然后将这些分配的指针复制到设备上用作设备指针(这在UVA中是合法的)。

另一种方法是在设备端分配_w指针。这也可能符合您的目的。

我假设以上所有内容都适用于cc 2.0或更高版本。

使用类似这里所描述的方法,可能可以将在循环中完成的设备端分配折叠为单个分配。

cudaMalloc(&(w[0]), nParticles*300*sizeof(double));
cudaCheckErrors("cudaMalloc2 fail");
cudaMemcpy(&(dev_p[0]._w), &(w[0]), sizeof(double *), cudaMemcpyHostToDevice);
cudaCheckErrors("cudaMemcpy1 fail");
for( int i = 1; i < nParticles; i++){
  w[i] = w[i-1] + 300;
  cudaMemcpy(&(dev_p[i]._w), &(w[i]), sizeof(double *), cudaMemcpyHostToDevice);
  cudaCheckErrors("cudaMemcpy1 fail");
  }

cudaMemcpy 操作仍需逐个完成。


1

有两种方法可以做到这一点。第一种方法是在主机上分配内存,填充粒子对象的host数组。完成后,通过cudaMemcpy将主机数组复制到设备。

第二种方法 - 在Fermi及更高版本中,您可以在内核中调用malloc,从内核填充dev_P数组。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接