第一次租GPU云服务器跑AI模型前要装哪些驱动和环境?

很多开发者第一次接触GPU云服务器时,最常卡住的不是代码,而是环境配置。尤其是驱动、CUDA、cuDNN这些组件,版本一不对,整个训练流程就跑不起来。别担心,我们一步步来,帮你把基础环境搭稳。

本文聚焦于首次使用GPU云服务器前必须安装的核心软件栈,适用于主流Linux发行版(如Ubuntu 20.04或类似系统),不依赖任何厂商预装镜像,确保你掌握底层逻辑。

一、确认硬件与系统基础

在动手安装前,先确认你的实例是否真的配备了NVIDIA GPU,并且操作系统是64位Linux(推荐Ubuntu 20.04或Alibaba Cloud Linux等长期支持版本)。

  1. 通过控制台创建实例时,选择带有GPU的配置(如配备Tesla T4、A10、V100或消费级RTX 30/40系列的实例)。
  2. 登录后执行以下命令确认系统信息:
    • lspci | grep -i nvidia:查看GPU型号
    • uname -r:记录内核版本,后续驱动安装需匹配
    • cat /etc/os-release:确认操作系统版本

二、安装NVIDIA GPU驱动(最关键一步)

GPU驱动是所有上层计算框架的基础。装错版本会导致nvidia-smi无法识别设备,甚至系统无法启动。

  1. 推荐方式:使用系统包管理器自动安装(避免手动.run文件引发的内核冲突):
    • Ubuntu系:
      sudo apt update
      sudo add-apt-repository ppa:graphics-drivers/ppa
      sudo apt install ubuntu-drivers-common
      sudo ubuntu-drivers autoinstall
    • 重启生效:sudo reboot
  2. 验证安装是否成功:
    nvidia-smi

    若输出包含GPU型号、驱动版本、显存信息,则驱动安装成功。

注意:部分云平台在创建实例时提供“自动安装Tesla驱动”选项,可跳过此步。但若需特定版本(如支持CUDA 12.x的驱动525+),仍建议手动控制。

三、安装CUDA Toolkit

CUDA是NVIDIA提供的并行计算平台,深度学习框架(如PyTorch、TensorFlow)依赖它调用GPU。

  1. 先查兼容性:访问NVIDIA官方文档,确认你所需的深度学习框架支持的CUDA版本(例如PyTorch 2.0通常需CUDA 11.8或12.1)。
  2. 下载并安装对应版本(以CUDA 11.8为例):
    wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
    sudo sh cuda_11.8.0_520.61.05_linux.run

    安装时取消勾选“Driver”(因已单独安装),仅安装CUDA Toolkit和cuBLAS等库。

  3. 配置环境变量(添加到~/.bashrc):
    export PATH=/usr/local/cuda-11.8/bin:$PATH
    export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

    然后执行source ~/.bashrc生效。

  4. 验证:
    nvcc --version

    应显示CUDA编译器版本,与安装版本一致。

四、安装cuDNN(可选但强烈推荐)

cuDNN是NVIDIA提供的深度神经网络加速库,能显著提升训练速度。

  1. 前往NVIDIA开发者网站下载对应CUDA版本的cuDNN(需注册账号)。
  2. 解压并复制文件(以cuDNN 8.6 for CUDA 11.8为例):
    tar -xzvf cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz
    sudo cp cudnn--archive/include/cudnn.h /usr/local/cuda/include
    sudo cp -P cudnn--archive/lib/libcudnn /usr/local/cuda/lib64
    sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn
  3. 无需额外配置,PyTorch/TensorFlow会自动调用。

五、安装深度学习框架(以PyTorch为例)

使用官方推荐方式安装,确保与CUDA版本匹配。

  1. 访问pytorch.org,选择对应配置(Linux + Pip + Python + CUDA版本)。
  2. 执行安装命令(示例):
    pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  3. 验证GPU是否可用:
    python3 -c "import torch; print(torch.cuda.is_available())"

    输出True表示成功。

六、环境配置对比建议

不同安装方式各有优劣,新手可参考下表选择:

安装方式 优点 缺点 适合人群
手动安装驱动+CUDA+框架 完全可控,便于排查问题 步骤繁琐,易出错 希望深入理解底层机制的学习者
使用预装镜像(如PyTorch 2.0 + CUDA 11.8) 开箱即用,节省时间 版本固定,难以定制 只想快速跑通模型的新手
使用Miniconda管理环境 隔离依赖,避免冲突 需额外学习Conda命令 多项目并行开发的用户

七、常见避坑指南

  • 驱动与CUDA版本不匹配:例如CUDA 12.x要求驱动版本≥525。务必查阅NVIDIA官方兼容表。
  • 内核更新后驱动失效:系统自动更新内核可能导致驱动无法加载。建议禁用自动内核更新,或使用DKMS方式安装驱动。
  • 显存被图形界面占用:服务器应使用无图形界面模式(multi-user.target),避免X Server占用显存。
  • 忘记关机持续计费:训练完成后务必在控制台关机,仅停止程序不会停止计费。

常见问题 FAQ

问题 解答
是否必须安装图形界面? 不需要。GPU云服务器应使用命令行模式(headless),图形界面会占用显存且无实际用途。
能否跳过驱动直接装CUDA? 不能。CUDA依赖NVIDIA驱动提供的内核模块,必须先装驱动。
安装后nvidia-smi显示“NVIDIA-SMI has failed”怎么办? 常见原因:驱动未加载、内核版本不匹配、Secure Boot启用。可尝试sudo modprobe nvidia或重装匹配版本驱动。
是否需要安装cuDNN? 虽然部分框架自带cuDNN,但单独安装最新版可提升性能,建议安装。
能否在一台服务器上安装多个CUDA版本? 可以。通过软链接切换/usr/local/cuda指向不同版本目录,或使用环境变量指定路径。
未经允许不得转载: 本文整合公开技术资料及厂商官方信息,力求确保内容的时效性与客观性。建议您将文中信息作为决策参考,并以各云厂商官方页面的最新公告为准。云服务商优惠信息实时变动,本文内容仅供参考,最终价格请以官方活动页面公示为准。云服务器选型 » 第一次租GPU云服务器跑AI模型前要装哪些驱动和环境?