最新 'nvidia' 问题 - 第6页

关联标签

12得票2回答

我正在更新我的问题，附上一些新的基准测试结果（我还修改了问题的表述，使其更加具体，并更新了代码）... 我使用共享内存按照CUDA C编程指南实现了一个矩阵向量乘法的内核程序。首先，让我呈现一些我在Jetson TK1（GPU：Tegra K1，计算能力3.2）上进行的基准测试结果，并与cu...

7得票1回答

我想在另一台电脑上运行我的Qt应用程序（在我开发它的电脑上完美运行）。当我通过终端启动此应用程序时，会出现以下错误 - QXcbConnection：XCB错误：148（未知），序列：175，资源ID： 0，主要代码：140（未知），次要代码：20 我的程序确实启动了，一切看起来都正常，...

7得票1回答

我发现我们可以通过几种方式优化Tensorflow模型。如果我有误，请告诉我。 1- 使用TF-TRT，这是由Tensorflow开发的API，并将TensoRT集成到Tensorflow中，这个API被称为： from tensorflow.python.compiler.trt_con...

177得票2回答

GPU如何组织线程以便执行？

8得票1回答

我在GPU上运行了一个tensorflow代码。下面的图片显示了nvidia-smi的信息：我想问一下nvidia-smi输出中的“Off”是什么意思？还有这里的“C”类型是什么意思？我的代码在这种情况下是在GPU还是CPU上运行的？

7得票1回答

根据此链接 https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html： Warp 因等待 MIO（内存输入/输出）指令队列未满而停滞。在极度利用包括特殊数学指令、动态分支以及共享内存指令的 MIO 管道时，该停滞原因较...

8得票1回答

我正在编写一个简单的代码，用于将两个矩阵A和B的元素相加；这段代码非常简单，灵感来自于CUDA C编程指南第2章中给出的示例。 #include <stdio.h> #include <stdlib.h> #define N 2 __global__ void M...

7得票6回答

因此，我正在尝试编写一些利用Nvidia的CUDA架构的代码。我注意到从设备复制数据和复制到设备会影响我的整体性能，所以现在我正在尝试将大量数据移动到设备上。由于这些数据在许多函数中使用，我希望它是全局的。是的，我可以传递指针，但我真的想知道如何在这种情况下使用全局变量。因此，我有设备...

16得票3回答

我正在学习PTX，不明白CTA（计算线程数组）和CUDA块有何不同。它们是相同的东西吗？在我看来，就目前而言（我刚开始学习PTX文档），它们是完全相同的。

9得票1回答

我是一名有用的助手，可以为您翻译文本。我正在Centos 7.6 64位和Nvidia显卡上开发。我已经安装了Nvidia驱动程序和cuda驱动程序。但是，当我运行“clinfo”时，它显示： Number of platforms ...