12得票2回答
CUDA中的矩阵向量乘法:基准测试和性能

我正在更新我的问题,附上一些新的基准测试结果(我还修改了问题的表述,使其更加具体,并更新了代码)... 我使用共享内存按照CUDA C编程指南实现了一个矩阵向量乘法的内核程序。首先,让我呈现一些我在Jetson TK1(GPU:Tegra K1,计算能力3.2)上进行的基准测试结果,并与cu...

7得票1回答
XCB错误:148 - Qt应用程序显示问题

我想在另一台电脑上运行我的Qt应用程序(在我开发它的电脑上完美运行)。当我通过终端启动此应用程序时,会出现以下错误 - QXcbConnection:XCB错误:148(未知),序列:175,资源ID: 0,主要代码:140(未知),次要代码:20 我的程序确实启动了,一切看起来都正常,...

7得票1回答
TF-TRT与UFF-TensorRT比较

我发现我们可以通过几种方式优化Tensorflow模型。如果我有误,请告诉我。 1- 使用TF-TRT,这是由Tensorflow开发的API,并将TensoRT集成到Tensorflow中,这个API被称为: from tensorflow.python.compiler.trt_con...

177得票2回答
8得票1回答
“Off”在nvidia-smi的输出中是什么意思?

我在GPU上运行了一个tensorflow代码。 下面的图片显示了nvidia-smi的信息: 我想问一下nvidia-smi输出中的“Off”是什么意思? 还有这里的“C”类型是什么意思? 我的代码在这种情况下是在GPU还是CPU上运行的?

7得票1回答
MIO油门失速是在什么情况下发生的?

根据此链接 https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html: Warp 因等待 MIO(内存输入/输出)指令队列未满而停滞。在极度利用包括特殊数学指令、动态分支以及共享内存指令的 MIO 管道时,该停滞原因较...

8得票1回答
如何使用CUDA C进行矩阵加法

我正在编写一个简单的代码,用于将两个矩阵A和B的元素相加;这段代码非常简单,灵感来自于CUDA C编程指南第2章中给出的示例。 #include <stdio.h> #include <stdlib.h> #define N 2 __global__ void M...

7得票6回答
CUDA全局动态数组(类似于C语言),分配到设备内存中。

因此,我正在尝试编写一些利用Nvidia的CUDA架构的代码。我注意到从设备复制数据和复制到设备会影响我的整体性能,所以现在我正在尝试将大量数据移动到设备上。 由于这些数据在许多函数中使用,我希望它是全局的。是的,我可以传递指针,但我真的想知道如何在这种情况下使用全局变量。 因此,我有设备...

16得票3回答
PTX - 什么是CTA?

我正在学习PTX,不明白CTA(计算线程数组)和CUDA块有何不同。 它们是相同的东西吗?在我看来,就目前而言(我刚开始学习PTX文档),它们是完全相同的。

9得票1回答
clinfo显示“平台数量为0”

我是一名有用的助手,可以为您翻译文本。 我正在Centos 7.6 64位和Nvidia显卡上开发。我已经安装了Nvidia驱动程序和cuda驱动程序。 但是,当我运行“clinfo”时,它显示: Number of platforms ...