安装DeepSeekR1前要做什么准备 - AI技术

安装 DeepSeek R1 前的准备清单
一硬件与系统基线

明确模型规模与资源：常见版本为1.5B / 7B / 13B / 33B / 65B。显存需求随参数与精度快速增长，量化可显著降低显存占用。
最低可用配置（面向 7B 量化）：GPU 显存≥16GB（如支持 CUDA 的消费级显卡）、系统内存≥32GB、可用存储≥50GB（建议 NVMe SSD）。
推荐配置（面向 7B/13B 原生或半精度）：GPU 显存≥24GB（如 RTX 3090/4090）、内存≥32–64GB、存储≥500GB NVMe（模型与缓存）。
专业/企业级（13B/33B/65B 或 FP16 满血）：多卡 A100/H100 等数据中心级 GPU、内存64–128GB+、高速存储与网络。
操作系统与驱动：优先 Ubuntu 20.04/22.04 LTS；Windows 建议使用 WSL2。安装匹配显卡的 NVIDIA 驱动 与 CUDA 11.8/12.x，并准备 cuDNN。
资源速览（示例）：
1.5B：显存≥6–8GB（量化），内存≥16GB，存储≥5–10GB；
7B：显存≥16GB（量化）或≥24GB（FP16），内存≥32GB，存储≥50GB；
13B：显存≥40GB（量化）或≥80GB（FP16），内存≥64GB，存储≥500GB。

二软件与开发环境

Python 与虚拟环境：建议 Python 3.8–3.10，使用 conda 或 venv 创建隔离环境（示例：conda create -n deepseek python=3.9）。
深度学习栈：安装与 CUDA 版本匹配的 PyTorch（如 cu118/cu121 对应版本），以及 Transformers、Accelerate；可选 ONNX Runtime-GPU 用于加速。
容器化（可选）：准备 Docker 与 NVIDIA Container Toolkit，便于环境一致性与多机部署。
下载与依赖工具：安装 Git LFS（用于大文件）、配置 Hugging Face 访问令牌（如需私有模型/加速下载）。

三模型与存储规划

版本选择：根据硬件选择 1.5B/7B/13B 等规模；显存紧张时优先 4bit/8bit 量化 版本（精度略有损失，显存占用显著下降）。
获取渠道：优先 Hugging Face 官方仓库（如 deepseek-ai/DeepSeek-R1-7B）；企业/受限网络可使用国内镜像或官方提供的下载方式。
校验与完整性：下载后执行 SHA256 校验，防止权重损坏。
存储布局：为模型权重、缓存、日志与数据集预留空间；建议模型与缓存位于 NVMe SSD，提升加载与推理速度。
目录与权限：规划统一的模型目录（如 ./local_models/deepseek_r1），确保当前用户对目录有读写权限。

四网络与端口及安全合规

端口与服务：规划推理服务端口（常用 8000/8080），提前在防火墙放行；如使用容器/云主机，确保安全组规则允许相应端口入站。
高并发与扩展：如需并发与弹性，提前设计 Nginx/负载均衡 与 Kubernetes 扩缩容策略。
数据与合规：涉及敏感数据时优先本地/私有化部署；启用 TLS 1.3 加密、API Key/OAuth2 认证与审计日志，并做好数据脱敏与访问控制。

五上线前自检清单

驱动与工具链：nvidia-smi 可见 GPU、nvcc --version 显示 CUDA 11.8/12.x、cuDNN 版本匹配。
环境验证：Python 版本正确、虚拟环境激活、pip 源可用；PyTorch 可导入且 torch.cuda.is_available() 为 True。
磁盘与权限：模型目录可写，NVMe 剩余空间充足；下载的权重通过 SHA256 校验。
端口连通：本机/容器/云主机端口 8000/8080 未被占用且已放行。
回退方案：准备低一档的量化模型或更小参数版本，便于在显存不足时快速回退。