CUDA生态的兼容性需遵循“驱动→CUDA Toolkit→cuDNN→深度学习框架”的层级依赖,且各组件版本需严格匹配:
nvidia-smi查看驱动支持的最高CUDA版本(如显示“CUDA Version: 12.0”表示支持12.0及以下版本)。apt)安装,避免使用第三方源(易导致版本冲突)。sudo apt purge cuda*或sudo rm -rf /usr/local/cuda-X.Y)、cuDNN(sudo rm -rf /usr/local/cuda/lib64/libcudnn*)及驱动(sudo apt purge nvidia-*),清理残留文件和环境变量。sudo apt install nvidia-driver-XXX安装指定版本驱动。/usr/local/cuda-12.4、/usr/local/cuda-11.8),避免文件覆盖。PATH、LD_LIBRARY_PATH)指定默认版本(如export PATH=/usr/local/cuda-12.4/bin:$PATH),或使用符号链接(sudo ln -sf /usr/local/cuda-12.4 /usr/local/cuda)快速切换。nvidia-smi,确认驱动支持的CUDA版本(右上角“CUDA Version”)≥目标CUDA Toolkit版本。nvcc --version,确认当前激活的CUDA Toolkit版本与目标版本一致。import torch; print(torch.version.cuda)(PyTorch示例),确认框架使用的CUDA版本≤驱动支持的版本;运行torch.cuda.is_available(),确认框架能识别GPU。nvidia-smi显示驱动支持的最高CUDA版本,nvcc显示当前激活的CUDA Toolkit版本,无需担心,只需确保框架使用的CUDA版本≤驱动支持的版本。conda install pytorch==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia)。whereis cuda(Linux)或where nvcc(Windows)查找旧版本路径,清理环境变量(如.bashrc中的旧路径),确保新版本路径优先。