Tensorflow GPU使用

3

我试图在Keras中训练我的第一个图像分类器,使用8000张图片的训练集时速度非常缓慢。训练期间,我的CPU / GPU使用率约为40%/ 3%,我并不完全相信tensorflow-gpu已正确安装,因为我没有看到我应该在导入时看到的“成功打开CUDA库”行。

我的问题是:

  1. 这个大小的东西通常需要1080多长时间来训练?

  2. 假设我已经安装了以下内容,尝试设置tensorflow-gpu时可能会错过什么?

    • 全新的Windows 10安装
    • 最新的64位Anaconda
    • Visual Studio 2017,只勾选了“使用C ++进行桌面开发”
    • 带有最新补丁的Cuda Toolkit 9.0
    • CuDNN v7.0.5(2017年12月5日),适用于CUDA 9.0
    • tensorflow-gpu 1.7
    • 环境变量截图

enter image description here


你所描述的路径并不是检查tf gpu使用情况的方法。请提供一些代码以及输出,以便我们帮助你。你使用的是哪个IDE?在哪里检查使用情况?你是否已经检查了nvidia-smi.exe,并查看内存是否为你的环境分配了?安装后你是否测试过cudnn? - n1tk
1个回答

3

检查您的tf是否使用GPU的一种方法(也是最好的方法)是使用nvidia-smi:在这里,您可以看到我的任务的GPU内存使用情况(我有160万个观测值,13个变量,需要大约11 GB,您的也应该需要几MB或GB,不知道您的图片长什么样)。因此,如果您的系统在开始运行模型时不显示此信息,则肯定正在使用CPU(GPU需要几分钟到几小时,而CPU则需要更长时间)。

nvidia-smi info

注意:我的终端无法输出tensorflow的输出内容,这些内容在IDE中如下显示(CUDA不会像在线上所声称的那样显示,那个cuda问题只是当不兼容时无法在tf中启动GPU)。

Tensorflow uses GPU

一旦正确安装了cudnn,以下是测试通过的信息:

cudnn test pass

P.S:希望有所帮助。昨天在Ubuntu上尝试使用Tensorflow 1.7版本,但是没有按预期工作(GPU没有工作),因此降级回到了1.6版本,建议您使用1.6版本: 检查tf版本

对于您的设置与官方文档有些不同:

Nvidia CUDA Toolkit文档

因此,这里是正确的路径:

确保设置了以下值:

Variable Name: CUDA_PATH 
Variable Value: C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接