You need to enable JavaScript to run this app.
导航
GPU实例部署PyTorch
最近更新时间:2023.12.26 11:15:05首次发布时间:2023.07.18 19:38:36

本文将介绍GPU实例部署PyTorch,从GPU驱动开始彻底解决版本不匹配问题。

实验介绍

CUDA 是 NVIDIA 发明的一种并行计算平台和编程模型。它通过利用图形处理器 (GPU) 的处理能力,可大幅提升计算性能。PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。

Pytorch使用CUDA进行GPU加速时,在CUDA、GPU驱动已经安装的情况下,依然不能使用,很可能是版本不匹配的问题。本文从GPU驱动开始从头彻底解决版本不匹配问题。

关于实验

  • 级别:初级
  • 相关产品:ECS云服务器
  • 受众:通用
  • 操作系统:CentOS 7.8
  • 软件版本:CUDA 11.6,GPU Driver 510.85.02,Anaconda3,Python 3.8.3

操作步骤

步骤一:查看GPU驱动版本是否符合需求

  1. 查看本机的驱动是否满足要求
    nvidia-smi
    回显如下,表示当前系统的驱动版本是470.57.02,其支持最高版本的CUDA是11.4.alt

  2. 如果不满足需求,需要先卸载驱动,执行如下命令
    /usr/bin/nvidia-uninstall
    出现如下界面,选择Yes,随后一直回车确定alt
    卸载完成alt
    验证驱动是否卸载,回显如下则卸载成功
    alt

  3. 检查CUDA是否卸载
    执行find / -name 'cuda',如发现系统内CUDA相关文件,执行如下命令,卸载CUDA工具包,以cuda-11.4为例
    /usr/local/cuda/bin/cuda-uninstaller
    rm -rf /usr/local/cuda-11.4

  4. 重启实例,避免kernel错误
    reboot

步骤二:安装驱动

详细可以参照文档安装GPU驱动

  1. 登录CUDA官网查看所需CUDA版本对应的驱动。以CUDA11.6为例,驱动需要高于或者等于510.47.03
    alt

  2. 下载驱动安装包并进行安装。
    登录NVIDIA官网搜索出3个匹配的驱动安装包,如下图
    alt
    这里选择510.85.02版本,执行以下命令安装驱动
    wget https://us.download.nvidia.com/tesla/510.85.02/NVIDIA-Linux-x86\_64-510.85.02.run)
    sh NVIDIA-Linux-x86\_64-510.85.02.run

  3. 执行nvidia-smi,查看驱动是否安装成功。回显如下则安装成功。
    alt

步骤三:安装CUDA工具包

详细可以参照文档安装CUDA工具包

  1. 以安装11.6.0版本为例,下载并安装CUDA工具包
wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
sudo sh cuda_11.6.0_510.39.01_linux.run
  1. 配置环境变量
vim ~/.bashrc
export PATH=$PATH:/usr/local/cuda-11.6/bin
export LD\_LIBRARY\_PATH=$LD\_LIBRARY\_PATH:/usr/local/cuda-11.6/lib64
source ~/.bashrc
  1. 执行命令nvcc -V检查CUDA是否安装成功,回显如下则表示安装成功
    alt

步骤四:如有需要,安装Anaconda,创建虚拟环境(推荐使用)

  1. 下载安装包
    wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh

  2. 执行如下命令,安装
    bash Anaconda3-2022.05-Linux-x86\_64.sh
    按照提示,键入回车
    alt
    安装时一直回车默认确认信息,选择yes
    alt
    继续回车,记住这个地址/root/anaconda3,这是Anaconda的安装路径。
    alt
    询问是否初始化Anaconda,选择yes
    alt
    上述步骤完成后,执行source ~/.bashrc使配置文件生效,若配置成功,会直接进入base环境,如下所示
    alt
    如果没有进入base环境,执行conda --version查看Anaconda是否配置成功,若成功回显如下。
    alt
    如果回显结果是找不到命令,则需要手动添加环境变量
    alt
    执行如下命令,将Anconda的安装路径添加到环境变量,并使配置文件生效。
    export PATH=/root/anaconda3/bin:$PATH
    source ~/.bashrc
    alt

  3. 创建虚拟环境,指定python版本。这里以安装3.8.3版本的python为例,xxx处是环境的名称,此处命名为test-cuda11.6
    conda create -n xxx python=3.x.x
    alt
    激活虚拟环境
    conda activate test-cuda11.6
    alt

步骤五:安装Pytorch

  1. 登录Pytorch官网,找到对应的安装包及其依赖包,及其安装命令
    alt
    在虚拟环境test-cuda11.6下执行安装命令。(*说明:如未安装Anaconda并创建虚拟环境,在本地已有的python环境下也可以进行以下操作。由于外网安装,pytorch包下载会有点慢,请耐心等待)
    pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
    alt

  2. 执行pip list查看pytorch是否安装成功
    alt

  3. 测试CUDA是否可用

python
>>>import torch
>>>torch.cuda.is_available()

回显如下,则表明成功alt