36得票1回答
为什么没有实现double类型的atomicAdd函数?

为什么CUDA 4.0或更高版本没有明确实现双精度的atomicAdd()? 根据CUDA编程指南4.1附录F第97页,已经实现了以下版本的atomicAdd。 int atomicAdd(int* address, int val); unsigned int atomicAdd(uns...

22得票2回答
验证CUDA中内核是否执行的方法

当我使用不正确的参数(例如每个块超过512个线程)或者操作需要超出设备性能的资源(例如太多寄存器)时,调用内核将不会被执行。虽然没有任何异常或返回值来指示发生了什么。 我想知道是否有一种方法来验证内核是否已执行。

9得票1回答
在Linux系统上查找CUDA安装位置

什么是最好的方法? 以下是我的解决方案: echo $PATH | sed "s/:/\n/g" | grep "cuda/bin" | sed "s/\/bin//g" | head -n 1 which nvcc | sed "s/\/bin\/nvcc//" which nvcc |...

23得票1回答
CUDA如何获取网格、块、线程大小并并行化非正方形矩阵计算

我是CUDA的新手,需要帮助理解一些内容。我需要帮助将这两个for循环并行化。具体来说,如何设置dimBlock和dimGrid以使其运行更快。我知道这看起来像sdk中的向量加法示例,但该示例仅适用于方阵,并且当我尝试修改该代码以适应我的128 x 1024矩阵时,它无法正常工作。__glob...

7得票1回答
GPU中的同步

我有关于GPU执行同步的一些问题。 据我所知,在一个warp遇到屏障时(假设它在OpenCL中),并且它知道同一组的其他warp还没有到达那里。因此,它必须等待。但在等待期间,这个warp具体会做什么呢? 它仍然是一个活动的warp吗?还是会执行某种无操作? 我注意到,在内核中进行同步时,指...

10得票2回答
在内核调用中使用assert

在设备模式下,有没有方便的方法在内核调用中使用断言?

9得票2回答
如何在GPU上运行Apache Spark?

我想将Apache Spark与GPU集成,但Spark是基于Java开发的,而GPU使用CUDA / OpenCL,那么我们该如何将它们合并。

8得票1回答
使用套接字/内存而非文件在Cuda中解码视频

我目前正在尝试使用CUDA解码视频。我有一个名为cudaDecodeD3D9的CUDA示例。这个示例使用了一个名为cuvidCreateVideoSource的方法,该方法使用文件指针来指向源视频。是否有办法让Cuda从内存/套接字/流中加载视频呢?

8得票2回答
无法加载动态库'libcublasLt.so.11'; dlerror: libcublasLt.so.11: 无法打开共享对象文件: 没有这个文件或目录

我刚刚更新了我的显卡驱动 sudo apt install nvidia-driver-470 sudo apt install cuda-drivers-470 我之前决定以这种方式安装它们是因为当试图进行 sudo apt upgrade 时它们被阻止了。然后我错误地运行了 sudo...

13得票1回答
cudaMemcpyToSymbol和cudaMemcpy有什么区别,为什么cudaMemcpyToSymbol仍然存在?

根据其他问题和链接所述,您不能再使用符号名称来调用此函数。现在该功能已经消失,那么什么情况下会优先选择使用这个函数而不是cudaMemCpy?您何时需要使用它?有哪些权衡或好处? https://docs.nvidia.com/cuda/cuda-runtime-api/group__CUD...