CUDA生态的兼容性需遵循“驱动→CUDA Toolkit→cuDNN→深度学习框架”的层级依赖,且各组件版本需严格匹配:
nvidia-smi
查看驱动支持的最高CUDA版本(如显示“CUDA Version: 12.0”表示支持12.0及以下版本)。apt
)安装,避免使用第三方源(易导致版本冲突)。sudo apt purge cuda*
或sudo rm -rf /usr/local/cuda-X.Y
)、cuDNN(sudo rm -rf /usr/local/cuda/lib64/libcudnn*
)及驱动(sudo apt purge nvidia-*
),清理残留文件和环境变量。sudo apt install nvidia-driver-XXX
安装指定版本驱动。/usr/local/cuda-12.4
、/usr/local/cuda-11.8
),避免文件覆盖。PATH
、LD_LIBRARY_PATH
)指定默认版本(如export PATH=/usr/local/cuda-12.4/bin:$PATH
),或使用符号链接(sudo ln -sf /usr/local/cuda-12.4 /usr/local/cuda
)快速切换。nvidia-smi
,确认驱动支持的CUDA版本(右上角“CUDA Version”)≥目标CUDA Toolkit版本。nvcc --version
,确认当前激活的CUDA Toolkit版本与目标版本一致。import torch; print(torch.version.cuda)
(PyTorch示例),确认框架使用的CUDA版本≤驱动支持的版本;运行torch.cuda.is_available()
,确认框架能识别GPU。nvidia-smi
显示驱动支持的最高CUDA版本,nvcc
显示当前激活的CUDA Toolkit版本,无需担心,只需确保框架使用的CUDA版本≤驱动支持的版本。conda install pytorch==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia
)。whereis cuda
(Linux)或where nvcc
(Windows)查找旧版本路径,清理环境变量(如.bashrc
中的旧路径),确保新版本路径优先。