CUDA：如何在内核函数中调用device函数

Question

CUDA：如何在内核函数中调用device函数

22

我有一个内核，其中在if语句中调用了设备函数。代码如下：

__device__ void SetValues(int *ptr,int id)
{
    if(ptr[threadIdx.x]==id) //question related to here
          ptr[threadIdx.x]++;
}

__global__ void Kernel(int *ptr)
{
    if(threadIdx.x<2)
         SetValues(ptr,threadIdx.x);
}

在内核线程0-1中并发调用了SetValues函数。这之后会发生什么？我的意思是现在有两个并发的SetValues调用。每个函数调用都会串行执行吗？它们就像2个内核函数调用一样吗？

- scatman

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- talonmies · Accepted Answer

CUDA默认情况下实际上会将所有函数内联（虽然Fermi及以上架构也支持使用函数指针和真正的函数调用），因此您的示例代码会被编译成类似于以下内容：

__global__ void Kernel(int *ptr)
{
    if(threadIdx.x<2)
        if(ptr[threadIdx.x]==threadIdx.x)
            ptr[threadIdx.x]++;
}

代码执行是并行的，就像普通代码一样。如果你在函数中设计了一个内存竞争，那么没有任何串行化机制可以拯救你。

CUDA：如何在内核函数中调用__device__函数

CUDA：如何在内核函数中调用device函数