53得票10回答
Tensorflow崩溃并显示CUBLAS_STATUS_ALLOC_FAILED错误

我正在Windows 10上运行tensorflow-gpu,使用一个简单的MINST神经网络程序。当它尝试运行时,遇到了一个CUBLAS_STATUS_ALLOC_FAILED错误。谷歌搜索没有找到任何相关信息。 I c:\tf_jenkins\home\workspace\release...

27得票7回答
值错误:系统路径中找不到libcublas.so.*[0-9]。

我正在尝试在我的Django Rest Framework项目中导入和使用ultralytics库,我使用poetry作为我的依赖管理器,我使用poetry add ultralytics安装了ultralytics,但在尝试在我的代码中导入该库时,我收到了以下错误信息: ValueErro...

24得票2回答
当转置时,CUBLAS中的leading dimension参数解释

对于矩阵A,文档仅说明相应的主导维参数lda是指: 用于存储矩阵A的二维数组的主导维度 因此,我认为这只是给定CUBLAS列优先存储格式下A的行数。 但是,当我们考虑Op(A)时,现在主导维度是什么意思呢?

17得票7回答
使用cublas时出现的TensorFlow运行错误

当我在集群上成功安装了tensorflow后,我立即运行手写数字识别(mnist)的示例来检查它是否正常,但是我遇到了一个问题。我不知道这是什么问题,但看起来像错误是来自CUDA。 python3 -m tensorflow.models.image.mnist.convolutional ...

17得票1回答
cuBLAS(numba)中的非方形C顺序矩阵

我正在尝试使用Anaconda的Numba软件包中的cuBLAS函数,遇到了一个问题。我需要将输入矩阵按C顺序排列,输出可以按Fortran顺序排列。 我可以运行软件包提供的示例脚本(此处)。脚本有两个函数gemm_v1和gemm_v2。在 gemm_v1 中,用户必须以Fortran顺序创...

17得票3回答
CUDA核函数可以调用cublas函数吗?

虽然听起来很奇怪,但这就是我的场景: 我需要做一个矩阵乘法(A(n*k)*B(k*n)),但我只需要对输出矩阵进行对角线元素的计算。我搜索了cublas库,没有找到可以实现这个目标的2级或3级函数。 所以,我决定将A的每一行和B的每一列分配给CUDA线程。对于每个线程(idx),我需要计算...

16得票2回答
简单的CUBLAS矩阵乘法示例

我正在寻找一个非常简单的CUBLAS矩阵乘法示例,可以将M乘以N并将结果放入P中,使用高性能GPU操作:float M[500][500], N[500][500], P[500][500]; for(int i = 0; i < Width; i++){ for(int j =...

15得票1回答
首次运行tf.session.run()与后续运行表现截然不同,为什么?

这是一个说明的例子: 第一次session.run(): TensorFlow会话的第一次运行 之后的session.run(): TensorFlow会话的后续运行 我知道TensorFlow在这里进行了一些初始化,但我想知道在源代码中它的体现在哪里。这发生在CPU和GPU上,但在GPU...

12得票2回答
CUDA中的矩阵向量乘法:基准测试和性能

我正在更新我的问题,附上一些新的基准测试结果(我还修改了问题的表述,使其更加具体,并更新了代码)... 我使用共享内存按照CUDA C编程指南实现了一个矩阵向量乘法的内核程序。首先,让我呈现一些我在Jetson TK1(GPU:Tegra K1,计算能力3.2)上进行的基准测试结果,并与cu...

11得票1回答
异步cuBLAS调用

我想异步调用cuBLAS例程。这是否可能?如果是,我该如何实现?