从设备内存创建Cuda 3D纹理和cudaArray(3d)

3

我正在尝试从设备数组的一部分创建一个纹理3D。

为此,以下是我的步骤:

  1. 分配设备数组
  2. 写入设备数组
  3. 创建CudaArray(3D)
  4. 将纹理绑定到CudaArray上

我这样做时不会出现编译器错误,但是当我运行cuda-memcheck并尝试从纹理中获取数据时失败了。

Invalid global read of size 8 .. Address 0x10dfaf3a0 is out of bounds

这就是我猜测我声明纹理数组错误的原因。下面是我访问纹理的方式:

tex3D(NoiseTextures[i],x,y,z)

我执行上述步骤的方法如下:

1. 分配设备数组

cudaMalloc((void **)&d_Noise, sqrSizeNoise*nNoise*sizeof(float));

2.编写设备数组

curandCreateGenerator(&gen,CURAND_RNG_PSEUDO_DEFAULT);
curandSetPseudoRandomGeneratorSeed(gen,Seed);
curandGenerateUniform(gen, d_Noise, sqrSizeNoise*nNoise);
curandDestroyGenerator(gen);

3+4. 创建Cuda数组并将其绑定到纹理(我猜错误出在这里)

cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();//cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindFloat);
cudaArray *d_cuArr;
cudaMalloc3DArray(&d_cuArr, &channelDesc, make_cudaExtent(SizeNoise,SizeNoise,SizeNoise), 0);
cudaMemcpy3DParms copyParams = {0};

//Loop for every separated Noise Texture (nNoise = 4)
for(int i = 0; i < nNoise; i++){

    //initialize the textures
    NoiseTextures[i] = texture<float, 3, cudaReadModeElementType>(1,cudaFilterModeLinear,cudaAddressModeWrap,channelDesc);

    //Array creation
    //+(sqrSizeNoise*i) is to separate the created Noise Array into smaller parts with the size of SizeNoise^3
    copyParams.srcPtr   = make_cudaPitchedPtr(d_Noise+(sqrSizeNoise*i), SizeNoise*sizeof(float), SizeNoise, SizeNoise);
    copyParams.dstArray = d_cuArr;
    copyParams.extent   = make_cudaExtent(SizeNoise,SizeNoise,SizeNoise);
    copyParams.kind     = cudaMemcpyDeviceToDevice;
    checkCudaErrors(cudaMemcpy3D(&copyParams));
    //Array creation End

    //new Bind
    // set texture parameters
    NoiseTextures[i].normalized = true;                      // access with normalized texture coordinates
    NoiseTextures[i].filterMode = cudaFilterModeLinear;      // linear interpolation
    NoiseTextures[i].addressMode[0] = cudaAddressModeWrap;   // wrap texture coordinates
    NoiseTextures[i].addressMode[1] = cudaAddressModeWrap;
    NoiseTextures[i].addressMode[2] = cudaAddressModeWrap;

    // bind array to 3D texture
    checkCudaErrors(cudaBindTextureToArray(NoiseTextures[i], d_cuArr, channelDesc));
    //end Bind
}
cudaFreeArray(d_cuArr);

我已将这段代码片段粘贴到Pastebin上,以便更容易查看和区分颜色等信息。 http://pastebin.com/SM3dYd38 希望我已清楚地描述了我的问题。如果没有,请在评论中提出!
你能帮助我吗? 感谢阅读。
Cery
编辑: 这里有完整的代码,所以你可以在自己的机器上尝试它:
#include <helper_cuda.h>  
#include <helper_functions.h>
#include <helper_cuda_gl.h>
#include <texture_types.h>
#include <cuda_runtime.h>
#include <curand.h>

static texture<float, 3, cudaReadModeElementType> NoiseTextures[4];//texture Array
float *d_NoiseTest;//Device Array with random floats
int SizeNoiseTest = 32;
int sqrSizeNoiseTest = 32768;

void CreateTexture();

__global__ void AccesTexture(texture<float, 3, cudaReadModeElementType>* NoiseTextures)
{
        int test = tex3D(NoiseTextures[0],threadIdx.x,threadIdx.y,threadIdx.z);//by using this the error occurs
}

int
main(int argc, char **argv)
{
        CreateTexture();
}
void CreateTexture()
{
        //curand Random Generator (needs compiler link -lcurand)
        curandGenerator_t gen;
        cudaMalloc((void **)&d_NoiseTest, sqrSizeNoiseTest*4*sizeof(float));//Allocation of device Array
        curandCreateGenerator(&gen,CURAND_RNG_PSEUDO_DEFAULT);
        curandSetPseudoRandomGeneratorSeed(gen,1234ULL);
        curandGenerateUniform(gen, d_NoiseTest, sqrSizeNoiseTest*4);//writing data to d_NoiseTest
        curandDestroyGenerator(gen);

        //cudaArray Descriptor
        cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();
        //cuda Array
        cudaArray *d_cuArr;
        cudaMalloc3DArray(&d_cuArr, &channelDesc, make_cudaExtent(SizeNoiseTest*sizeof(float),SizeNoiseTest,SizeNoiseTest), 0);
        cudaMemcpy3DParms copyParams = {0};

        //Loop for every separated Noise Texture (4 = 4)
        for(int i = 0; i < 4; i++){

                //initialize the textures
                NoiseTextures[i] = texture<float, 3, cudaReadModeElementType>(1,cudaFilterModeLinear,cudaAddressModeWrap,channelDesc);

                //Array creation
                //+(sqrSizeNoise*i) is to separate the created Noise Array into smaller parts with the size of SizeNoise^3
                copyParams.srcPtr   = make_cudaPitchedPtr(d_NoiseTest+(sqrSizeNoiseTest*i), SizeNoiseTest*sizeof(float), SizeNoiseTest, SizeNoiseTest);
                copyParams.dstArray = d_cuArr;
                copyParams.extent   = make_cudaExtent(SizeNoiseTest*sizeof(float),SizeNoiseTest,SizeNoiseTest);
                copyParams.kind     = cudaMemcpyDeviceToDevice;
                checkCudaErrors(cudaMemcpy3D(&copyParams));
                //Array creation End

                //new Bind
                // set texture parameters
                NoiseTextures[i].normalized = true;                      // access with normalized texture coordinates
                NoiseTextures[i].filterMode = cudaFilterModeLinear;      // linear interpolation
                NoiseTextures[i].addressMode[0] = cudaAddressModeWrap;   // wrap texture coordinates
                NoiseTextures[i].addressMode[1] = cudaAddressModeWrap;
                NoiseTextures[i].addressMode[2] = cudaAddressModeWrap;

                // bind array to 3D texture
                checkCudaErrors(cudaBindTextureToArray(NoiseTextures[i], d_cuArr, channelDesc));
                //end Bind
        }
        cudaFreeArray(d_cuArr);

        AccesTexture<<<1,dim3(4,4,4)>>>(NoiseTextures);
}

你需要链接-lcurand。并且包含CUDA-6.0 / samples / common / inc。
现在我在这段代码中遇到了不同的错误。
代码=11(cudaErrorInvalidValue)“cudaMemcpy3D(&copyParams)”
尽管它与我的原始代码完全相同。 - 我开始感到完全困惑。
谢谢你的帮助。

1
  1. 请提供一个简短完整的代码,任何人都可以复制、粘贴、编译和运行,以查看错误。SO 期望这样做
  2. 为什么要使用纹理数组?是否可以使用单个纹理,并对该纹理进行偏移,以代替每个子纹理?或者,您是否考虑过分层纹理?
  3. 您打算使用哪种GPU?我之所以问这个问题,是因为纹理对象数组(cc3.0及更高版本)可能可行,但存在问题/限制。
- Robert Crovella
1
make_cudaExtent() 的第一个参数是以字节为单位的宽度,所以据我猜测应该是 make_cudaExtent(SizeNoise*sizeof(float),SizeNoise,SizeNoise); - Kamil Czerski
您应该编辑您的问题以包括完整的代码示例,而不是链接。当我编译和运行该示例时,我会得到一个不同的错误:“CUDA error at t505.cu:66 code=18(cudaErrorInvalidTexture) ”cudaBindTextureToArray(NoiseTextures[i], d_cuArr, channelDesc)“”。这或多或少是我预期的。我不认为您可以使用Texture Reference API创建纹理数组。您是说您可以编译提供的完整代码样本并运行它,并通过纹理创建并能够启动内核并看到无效的全局读取吗? - Robert Crovella
1
你最好先让你的3D纹理代码适用于一个“普通的”(非数组)纹理。dim3(32,32,32)不是任何当前的CUDA GPU的有效线程块配置。无论之前的代码如何,你都不可能运行该内核。我们不会将纹理引用作为内核的参数进行传递。它是一个静态实体。你只需要使用它。最好先学习基本的纹理知识。 - Robert Crovella
2
@KamilCzerski 如果cudaMemcpy3D操作中涉及到cudaArray,则用于3D复制参数的范围不是以字节为单位指定的,而是以元素为单位指定的。请参考文档 - Robert Crovella
显示剩余4条评论
2个回答

5
这里有一个实际案例,展示了如何创建一个纹理对象数组,其大致遵循了您提供的代码路径。通过与我放置在此处的纹理引用代码进行比较,您可以看到第一组纹理读取(即第一次核函数调用)来自于纹理对象的第一个(您可能需要调整两个示例代码的网格大小以匹配)。使用纹理对象需要计算能力3.0或更高的版本。
举例:
$ cat t507.cu
#include <helper_cuda.h>
#include <curand.h>
#define NUM_TEX 4

const int SizeNoiseTest = 32;
const int cubeSizeNoiseTest = SizeNoiseTest*SizeNoiseTest*SizeNoiseTest;
static cudaTextureObject_t texNoise[NUM_TEX];

__global__ void AccesTexture(cudaTextureObject_t my_tex)
{
        float test = tex3D<float>(my_tex,(float)threadIdx.x,(float)threadIdx.y,(float)threadIdx.z);//by using this the error occurs
        printf("thread: %d,%d,%d, value: %f\n", threadIdx.x, threadIdx.y, threadIdx.z, test);
}

void CreateTexture()
{

    float *d_NoiseTest;//Device Array with random floats
    cudaMalloc((void **)&d_NoiseTest, cubeSizeNoiseTest*sizeof(float));//Allocation of device Array
    for (int i = 0; i < NUM_TEX; i++){
        //curand Random Generator (needs compiler link -lcurand)
        curandGenerator_t gen;
        curandCreateGenerator(&gen,CURAND_RNG_PSEUDO_DEFAULT);
        curandSetPseudoRandomGeneratorSeed(gen,1235ULL+i);
        curandGenerateUniform(gen, d_NoiseTest, cubeSizeNoiseTest);//writing data to d_NoiseTest
        curandDestroyGenerator(gen);

        //cudaArray Descriptor
        cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();
        //cuda Array
        cudaArray *d_cuArr;
        checkCudaErrors(cudaMalloc3DArray(&d_cuArr, &channelDesc, make_cudaExtent(SizeNoiseTest*sizeof(float),SizeNoiseTest,SizeNoiseTest), 0));
        cudaMemcpy3DParms copyParams = {0};


        //Array creation
        copyParams.srcPtr   = make_cudaPitchedPtr(d_NoiseTest, SizeNoiseTest*sizeof(float), SizeNoiseTest, SizeNoiseTest);
        copyParams.dstArray = d_cuArr;
        copyParams.extent   = make_cudaExtent(SizeNoiseTest,SizeNoiseTest,SizeNoiseTest);
        copyParams.kind     = cudaMemcpyDeviceToDevice;
        checkCudaErrors(cudaMemcpy3D(&copyParams));
        //Array creation End

        cudaResourceDesc    texRes;
        memset(&texRes, 0, sizeof(cudaResourceDesc));
        texRes.resType = cudaResourceTypeArray;
        texRes.res.array.array  = d_cuArr;
        cudaTextureDesc     texDescr;
        memset(&texDescr, 0, sizeof(cudaTextureDesc));
        texDescr.normalizedCoords = false;
        texDescr.filterMode = cudaFilterModeLinear;
        texDescr.addressMode[0] = cudaAddressModeClamp;   // clamp
        texDescr.addressMode[1] = cudaAddressModeClamp;
        texDescr.addressMode[2] = cudaAddressModeClamp;
        texDescr.readMode = cudaReadModeElementType;
        checkCudaErrors(cudaCreateTextureObject(&texNoise[i], &texRes, &texDescr, NULL));}
}

int main(int argc, char **argv)
{
        CreateTexture();
        AccesTexture<<<1,dim3(2,2,2)>>>(texNoise[0]);
        AccesTexture<<<1,dim3(2,2,2)>>>(texNoise[1]);
        AccesTexture<<<1,dim3(2,2,2)>>>(texNoise[2]);
        checkCudaErrors(cudaPeekAtLastError());
        checkCudaErrors(cudaDeviceSynchronize());
        return 0;
}

编译方式:

$ nvcc -arch=sm_30 -I/shared/apps/cuda/CUDA-v6.0.37/samples/common/inc -lcurand -o t507 t507.cu

输出:

$ cuda-memcheck ./t507
========= CUDA-MEMCHECK
thread: 0,0,0, value: 0.310691
thread: 1,0,0, value: 0.627906
thread: 0,1,0, value: 0.638900
thread: 1,1,0, value: 0.665186
thread: 0,0,1, value: 0.167465
thread: 1,0,1, value: 0.565227
thread: 0,1,1, value: 0.397606
thread: 1,1,1, value: 0.503013
thread: 0,0,0, value: 0.809163
thread: 1,0,0, value: 0.795669
thread: 0,1,0, value: 0.808565
thread: 1,1,0, value: 0.847564
thread: 0,0,1, value: 0.853998
thread: 1,0,1, value: 0.688446
thread: 0,1,1, value: 0.733255
thread: 1,1,1, value: 0.649379
thread: 0,0,0, value: 0.040824
thread: 1,0,0, value: 0.087417
thread: 0,1,0, value: 0.301392
thread: 1,1,0, value: 0.298669
thread: 0,0,1, value: 0.161962
thread: 1,0,1, value: 0.316443
thread: 0,1,1, value: 0.452077
thread: 1,1,1, value: 0.477722
========= ERROR SUMMARY: 0 errors

在这种情况下,我使用相同的内核多次调用来从单个纹理对象中读取。虽然可以将多个对象传递给同一个内核,但是如果可能的话,不建议让单个从多个纹理中读取,最好避免这种情况出现在您的代码中。实际问题存在于四边形级别上,我宁愿不涉及此问题。为了确保每个周期都能从相同的纹理对象中读取,最好安排您的代码,使一个warp从同一个纹理对象中读取。
请注意,为了简化演示,此CreateTexture()函数在循环处理过程中覆盖了先前分配的设备指针,如d_cuArr。尽管这并非非法或功能问题,但这可能会导致内存泄漏的可能性增加。如果您担心这一点,我认为您可以修改代码以处理这些指针的释放。
此代码的目的是演示使事情工作的方法。

1
在cudaMalloc3DArray中,应该是这样的make_cudaExtent(SizeNoiseTest,SizeNoiseTest,SizeNoiseTest),而不是make_cudaExtent(SizeNoiseTest*sizeof(float),SizeNoiseTest,SizeNoiseTest)。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接