安装 DeepSeek R1 前的准备清单
一 硬件与系统基线
- 明确模型规模与资源:常见版本为1.5B / 7B / 13B / 33B / 65B。显存需求随参数与精度快速增长,量化可显著降低显存占用。
- 最低可用配置(面向 7B 量化):GPU 显存≥16GB(如支持 CUDA 的消费级显卡)、系统内存≥32GB、可用存储≥50GB(建议 NVMe SSD)。
- 推荐配置(面向 7B/13B 原生或半精度):GPU 显存≥24GB(如 RTX 3090/4090)、内存≥32–64GB、存储≥500GB NVMe(模型与缓存)。
- 专业/企业级(13B/33B/65B 或 FP16 满血):多卡 A100/H100 等数据中心级 GPU、内存64–128GB+、高速存储与网络。
- 操作系统与驱动:优先 Ubuntu 20.04/22.04 LTS;Windows 建议使用 WSL2。安装匹配显卡的 NVIDIA 驱动 与 CUDA 11.8/12.x,并准备 cuDNN。
- 资源速览(示例):
- 1.5B:显存≥6–8GB(量化),内存≥16GB,存储≥5–10GB;
- 7B:显存≥16GB(量化)或≥24GB(FP16),内存≥32GB,存储≥50GB;
- 13B:显存≥40GB(量化)或≥80GB(FP16),内存≥64GB,存储≥500GB。
二 软件与开发环境
- Python 与虚拟环境:建议 Python 3.8–3.10,使用 conda 或 venv 创建隔离环境(示例:conda create -n deepseek python=3.9)。
- 深度学习栈:安装与 CUDA 版本匹配的 PyTorch(如 cu118/cu121 对应版本),以及 Transformers、Accelerate;可选 ONNX Runtime-GPU 用于加速。
- 容器化(可选):准备 Docker 与 NVIDIA Container Toolkit,便于环境一致性与多机部署。
- 下载与依赖工具:安装 Git LFS(用于大文件)、配置 Hugging Face 访问令牌(如需私有模型/加速下载)。
三 模型与存储规划
- 版本选择:根据硬件选择 1.5B/7B/13B 等规模;显存紧张时优先 4bit/8bit 量化 版本(精度略有损失,显存占用显著下降)。
- 获取渠道:优先 Hugging Face 官方仓库(如 deepseek-ai/DeepSeek-R1-7B);企业/受限网络可使用国内镜像或官方提供的下载方式。
- 校验与完整性:下载后执行 SHA256 校验,防止权重损坏。
- 存储布局:为模型权重、缓存、日志与数据集预留空间;建议模型与缓存位于 NVMe SSD,提升加载与推理速度。
- 目录与权限:规划统一的模型目录(如 ./local_models/deepseek_r1),确保当前用户对目录有读写权限。
四 网络与端口及安全合规
- 端口与服务:规划推理服务端口(常用 8000/8080),提前在防火墙放行;如使用容器/云主机,确保安全组规则允许相应端口入站。
- 高并发与扩展:如需并发与弹性,提前设计 Nginx/负载均衡 与 Kubernetes 扩缩容策略。
- 数据与合规:涉及敏感数据时优先本地/私有化部署;启用 TLS 1.3 加密、API Key/OAuth2 认证与审计日志,并做好数据脱敏与访问控制。
五 上线前自检清单
- 驱动与工具链:nvidia-smi 可见 GPU、nvcc --version 显示 CUDA 11.8/12.x、cuDNN 版本匹配。
- 环境验证:Python 版本正确、虚拟环境激活、pip 源可用;PyTorch 可导入且 torch.cuda.is_available() 为 True。
- 磁盘与权限:模型目录可写,NVMe 剩余空间充足;下载的权重通过 SHA256 校验。
- 端口连通:本机/容器/云主机端口 8000/8080 未被占用且已放行。
- 回退方案:准备低一档的量化模型或更小参数版本,便于在显存不足时快速回退。