Linux 部署 Llama3 的配置清单
一 操作系统与基础环境
- 操作系统:优先选择 Ubuntu 20.04/22.04 LTS(x86_64),内核与驱动生态成熟,便于 GPU 与深度学习栈兼容。
- 基础工具链:安装 build-essential、python3.10、python3-pip、git、wget 等基础包,确保编译与包管理可用。
- Python 环境:建议使用 conda 创建隔离环境,Python 版本 3.10 为主流选择,便于与 PyTorch、Transformers 等版本匹配。
- 容器化(可选):如需快速复用环境或做服务化,可准备 Docker/容器运行时 与合适的 GPU 驱动挂载。
二 GPU 驱动与计算栈
- NVIDIA 驱动:安装与显卡匹配的驱动,生产常用 nvidia-driver-535 系列;安装后用
nvidia-smi 验证驱动与 GPU 状态。 - CUDA 版本:选择与框架兼容的 CUDA 11.8 或 CUDA 12.1;两者在 Llama3 部署中均被广泛采用,务必与 PyTorch 版本一一对应。
- cuDNN:与 CUDA 配套安装(如 cuDNN 8.9.1 对应 CUDA 12.1),确保深度学习算子与加速库可用。
- 环境校验:执行
nvidia-smi、nvcc --version、python -c "import torch; print(torch.cuda.is_available())" 确认驱动、编译栈与 CUDA 可用性。
三 Python 依赖与版本矩阵
- 建议的运行时组合(示例):
- 组合 A(稳定通用):Python 3.10 + PyTorch 2.1.x + Transformers 4.38.x + CUDA 11.8(适合多数 8B/70B 场景与量化推理)。
- 组合 B(新特性/新库):Python 3.10 + PyTorch 2.0.x + Transformers 4.30.x + CUDA 12.1(适合需要新特性或新生态的场景)。
- 常用依赖与用途:
- accelerate(多设备/分布式与推理加速)
- sentencepiece(Llama3 分词器依赖)
- bitsandbytes(4/8-bit 量化,显著降低显存占用)
- 可选:modelscope(国内镜像加速下载 Llama3 权重)
- 版本要点:Transformers 需较新版本以支持 Llama3 的模型与分词器;量化与 device_map 等功能依赖较新的 Transformers/Accelerate。
四 存储 网络与权限
- 存储与 I/O:模型权重体积大(8B 约数 GB、70B 数十 GB),建议使用 NVMe SSD;大模型加载与检索对 I/O 敏感,云盘/本地 NVMe 均可,注意挂载与权限。
- 网络带宽:从 Hugging Face/ModelScope 拉取权重需要较高带宽;内网/离线环境可提前在有网环境下载并拷贝至目标机器。
- 权限与安全:
- 创建专用用户与 conda 环境,避免污染系统 Python。
- 若使用 Hugging Face 权重,需事先申请并配置 Access Token,确保合法合规下载。
- 多用户/生产环境建议隔离模型目录与日志目录权限,开启防火墙与必要的审计。
五 快速自检命令清单
- 系统更新与基础包:
sudo apt update && sudo apt install -y build-essential python3.10 python3-pip git wget - 驱动与 CUDA:
nvidia-smi(驱动/显存)、nvcc --version(CUDA 编译器) - Conda 与 Python:
conda create -n llama3 python=3.10 -y && conda activate llama3 - PyTorch 与 CUDA 校验:`python - <<'PY'
import torch
print("PyTorch:", torch.__version__, "CUDA available:", torch.cuda.is_available())
print("CUDA:", torch.version.cuda if torch.cuda.is_available() else "N/A")
PY`
- Transformers 与依赖:
pip show transformers accelerate sentencepiece bitsandbytes(确认版本与安装)