首页手记 GPU版本tensorflow安装及介绍

GPU版本tensorflow安装及介绍

标签：

Premiere

安装GPU加速的tensorflow 卸载tensorflow

一：本次安装实验环境

Ubuntu 16.04 + cuda9.0 + cudnn7.0
或
Ubuntu 16.04 + cuda8.0 + cudnn5.1

什么是CUDA呢？简单的来讲它是为了实现GPU运算的平台。我们的tensorflow会调用cuda的接口，利用显卡帮助我们运算程序

而CUDNN是为了加速神经网络用的

二：卸载TensorFlow

先介绍卸载，如果你的tensorflow是用pip安装的，那下面简单的命令就可以完成卸载了

    sudo pip uninstall tensorflow_gpu  
    sudo pip3 uninstall tensorflow_gpu

用 pip 还是pip3基于你是用python2 还是用python3安装的tensorflow

三：关于驱动那点事：

安装之前要先换驱动，如果你之前换过，那可以跳过这步直接进入主题。
方法如下：
打开system settings --> software & Updates --> Additional Drivers
然后选择你需要的显卡驱动。（一般选择nvidia的显卡驱动）

Selection_016.png

如果还不清楚，或者不行，可参考这两个地址：

http://blog.csdn.net/tianrolin/article/details/52830422
http://blog.csdn.net/u012581999/article/details/52433609

在正式进入安装之前，请先把cuda和cudnn对应的版本下载好：
本教程给的例子是： Ubuntu16.04 + cuda9.0 + cudnn7.0 + tensorflow1.9和Ubuntu16.04 + cuda8.0 + cudnn5.1 + tensorflow1.9

对于cuda和cudnn的下载，官网链接如下：

https://developer.nvidia.com/cuda-toolkit-archive
https://developer.nvidia.com/rdp/cudnn-archive

如果官网网速不够，可以用我给的链接(没币私信)：

https://download.csdn.net/download/chenhaojing/10591809

注意：这个版本搭配不是唯一的，首先你要了解你电脑的显卡是什么类型，然后根据你的显卡类型选择cuda的版本，在根据cuda的版本选择cudnn的版本，最后再根据前面两种的搭配选择tensorflow的版本

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
Selection_017.png

Selection_018.png

tensorflow 1.4 及以下选择cuda8.0 , 以上选择cuda9.0

安装cuda(以9.0为例子)

注意，下载.run文件，不要下载.deb文件，否则就踩坑了

安装命令：sudo sh cuda_9.0.176_384.81_linux.run

执行后会给一段协议，按ctrl+c 跳过阅读，然后 accept接受协议，选项如下：

Selection_019.png

你还会看到这个类似安装失败的提示：

Selection_020.png

别在意，要确定自己是不是安装成功，如下

验证是否安装完成
cd /usr/local/cuda-9.0/samples/1_Utilities/deviceQuery
(或者手动进入改文件夹，注意，同样路径中cuda-9.0根据cuda的版本变化而变化)

 sudo  make （报错可以不管）

 ./deviceQuery
 如果显示的是关于GPU的信息，则说明安装成功了。

Selection_021.png

Selection_023.png

四：安装cudnn

同样注意安装版本，例子是cudnn 7.0
先解压：

tar -zxvf cudnn-9.0-linux-x64-v7.tgz

解压后有个cuda文件，内有include和lib64两个文件夹，进入include文件夹，执行如下命令：

    sudo cp cudnn.h /usr/local/cuda/include/     #复制头文件

（或者直接执行 sudo cp cuda/include/cudnn.h /usr/local/cuda/include ）
再cd命令切换进lib64文件夹，执行如下命令：

     sudo cp lib* /usr/local/cuda/lib64/    #复制动态链接库

（或者直接执行 sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 ）

注意，按照网上一些版本不匹配的安装方法，这里执行后还要执行复制和删除软连接的操作，其实完全是多余的，当然，如果你不小心装错版本，是有必要修改软连接的

五：配置环境变量

我们就把cuda的环境变量配在 .bashrc 吧：

sudo gedit ~/.bashrc
把下面命令粘贴到文件末尾export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64export PATH=$PATH:/usr/local/cuda-9.0/binexport CUDA_HOME=$CUDA_HOME:/usr/local/cuda-9.0

六：安装TensorFlow-gpu

先给正确的安装命令：

Anacanda 下的命令：（力推，如果不知道建议先去安装，这个极为方便）

pip install tensorflow-gpu==1.9

官网命令：

 sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-1.7.0-cp36-none-linux_x86_64.whl

清华影像命令：

 sudo pip install --upgrade https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/gpu/tensorflow-1.7.0-cp36-none-linux_x86_64.whl

注意事项：

如果直接运行官网给的代码，网速可能很慢，毕竟是外国的网站。所以，我们不从官网下，去清华大学开源软件镜像站下载tensorflow.方法如下：

把https://storage.googleapis.com/ 替换为 https://mirrors.tuna.tsinghua.edu.cn/ 即可访问清华大学开源软件镜像站。
根据你想要的TensorFlow的版本，那么只需要修改tensorflow-1.7.0-cp36-none-linux_x86_64.whl
比如，我要TensorFlow-1.0.1版本，那么上面官网地址就修改为：

sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-1.0.1-cp27-none-linux_x86_64.whl

如果你用python3.5, 那么在tensorflow-1.0.1后面把cp27该为cp35-cp35m,下载命令就变为：

sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-1.0.1-cp35-cp35m-none-linux_x86_64.whl

如果改动不成功或者你不是Linux系统，那么请参考链接（以链接中的地址为主）：

https://mirrors.tuna.tsinghua.edu.cn/help/tensorflow/

七：测试

上面步骤都完成后进入测试：

>>> import tensorflow as tf>>> hello = tf.constant('Hello, TensorFlow!')>>> sess = tf.Session()>>> print sess.run(hello)
Hello, TensorFlow!>>> a = tf.constant(10)>>> b = tf.constant(32)>>> print sess.run(a+b)42

错误解决方案

软链接出错

发现这一步出错的主要原因是您安装的cuda或cudnn版本引起的
可能会报如下错误：

Couldn't open CUDA library libcudnn.so. LD_LIBRARY_PATH:

这说明找不到文件 libcudnn.so ，这个文件其实是个软链接来着，他指向另外一个软件。
注意：这里有必要解释一下cuda和cudnn这两个文件。我们解压出来的lib64下面有3个so文件。分别是 libcudnn.so 和 libcudnn.so.5以及 libcudnn.so.5.1.12文件（当然，读者你的文件跟我不相同的概率很大，不过不要仅，下面会教你怎么修改软链接），并且这3个点so文件大小都一样。其实都是软连接！libcudnn.so链接到libcudnn.so.5，而libcudnn.so.5.又链接到libcudnn.so.5.1.12。正真的文件只有libcudnn.so.5.1.12，因此我们要将/usr/local/lib64下的以前的这样的链接替换掉。由于装cuda时，比如我装的是cuda8.0，那么在/usr/local/下会生成cuda-8.0文件夹，以及一个cuda文件夹，cuda是软链接到cuda-8.0的，所以这两个文件夹可以看成一个。往任意一个文件夹中添加东西，另一个文件夹都会有相同的东西。

> cd /usr/local/cuda/lib64 
> ll libcudnn*

出现：

> lrwxrwxrwx 1 root root   13 3月   5 12:45 libcudnn.so -> libcudnn.so.5> lrwxrwxrwx 1 root root   18 3月   5 14:38 libcudnn.so.5 ->libcudnn.so.5.1.10> -rwxr-xr-x 1 root root  81M 3月   5 14:18 libcudnn.so.5.1.12> -rw-r--r-- 1 root root 138M 3月   5 14:28 libcudnn_static.a

从上面可以看出，libcudnn.so 文件最终指向libcudnn.so.5.1.12
所以，我们要删去原来的软链接，重写加上正确的软链接

> sudo rm libcudnn.so.5 libcudnn.so.5.1.10 > sudo ln -s libcudnn.so.5.1.12 libcudnn.so.5

再次查看：

ll libcudnn*

lrwxrwxrwx 1 root root   13 3月   5 12:45 libcudnn.so -> libcudnn.so.5lrwxrwxrwx 1 root root   18 3月   5 14:38 libcudnn.so.5 -> libcudnn.so.5.1.10-rwxr-xr-x 1 root root  81M 3月   5 14:18 libcudnn.so.5.1.10

多个cuda版本下可能会报的错

tensorflow-gpu is not working with Blas GEMM launch failedInternalError (see above for traceback): Blas GEMM launch failed : a.shape=(1, 5), b.shape=(5, 10), m=1, n=10, k=5
     [[Node: layer1/MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](_arg_Placeholder_0_0/_11, layer1/weights/read)]]
     [[Node: layer2/MatMul/_17 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/cpu:0", send_device="/job:localhost/replica:0/task:0/gpu:0", send_device_incarnation=1, tensor_name="edge_158_layer2/MatMul", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/cpu:0"]()]]

检查这个错误首先先确定是不是真的显卡不够，被其他程序占去了大部分，如果是，可以适当分配少量的显卡给tensorflow

gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.333)
sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))

如果你显卡内存剩于挺多的，那么可能是你在配置多版本cuda时没有清空之前cuda的缓存：

sudo rm -rf ~/.nv/     # 完美解决

可能会用到的操作

gcc版本降级

Ubuntu 16.04的gcc编译器是5.4.0，然而CUDA 8.0不支持5.0以上的编译器，因此需要降级，把编译器版本降到4.9。命令如下：

sudo apt-get install g++-4.9sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.9 20sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 10sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-4.9 20sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 10sudo update-alternatives --install /usr/bin/cc cc /usr/bin/gcc 30sudo update-alternatives --set cc /usr/bin/gcc
sudo update-alternatives --install /usr/bin/c++ c++ /usr/bin/g++ 30sudo update-alternatives --set c++ /usr/bin/g++

作者：winddy_akoky
链接：https://www.jianshu.com/p/31e06f5e53d3

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕哥9229398

手记
篇

粉丝

200

获赞与收藏

917

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32667 368

网络编程入门教程

20个小节 13529 255

Pandas 入门教程

25个小节 20158 383

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空