Windows 上部署 DeepSeek-R1 的必备条件
一 系统要求
- 操作系统:Windows 10 20H2/21H2+ 或 Windows 11,64 位。
- 内存:最低 8–16GB(轻量模型可用),推荐 32GB+(7B/14B 等更稳)。
- 存储:建议 SSD,可用空间 ≥ 50GB(模型与依赖)。
- 显卡(可选但强烈推荐):NVIDIA RTX 3060 12GB+,显存 ≥8GB 更流畅;需 CUDA 11.7/11.8 与匹配驱动。无独显可走 CPU 模式(性能受限)。
二 硬件资源与模型规模匹配
| 模型规模 | 最低内存 | 推荐内存 | 显存建议 | 存储需求 |
|---|
| 1.5B | 8GB | 16GB+ | 无硬性要求(≥1GB 可加速) | ≥ 10GB |
| 7B | 16GB | 32GB+ | 8–12GB(如 RTX 3060 12GB) | ≥ 30GB |
| 14B | 32GB | 64GB | 12GB+(如 RTX 3080 12GB+) | ≥ 50GB |
| 32B | 32GB | 64GB+ | ≈ 24GB(如 A100 40GB+) | ≥ 80GB |
| 70B | 64GB | 128GB+ | ≈ 40GB(如 H100 80GB+) | ≥ 200GB |
说明:显存不足时可通过量化(如 4-bit)降低占用,但会牺牲一定质量与速度。
三 软件依赖与运行环境
- 方案 A(Ollama 本地运行,最省事)
- 组件:Ollama v0.3.0+、Windows 10/11、可选 WSL2、可选 Docker Desktop 4.20+(便于容器化与离线分发)。
- 验证:命令行执行 ollama version、ollama serve、默认 API 端口 11434。
- 方案 B(原生 Python + Transformers)
- 组件:Python 3.10、PyTorch 2.0.1+cu118(CUDA 11.8)、Transformers ≥ 4.34.0、FastAPI/Uvicorn(如需 API 服务)。
- 驱动与工具:NVIDIA 驱动匹配 CUDA 11.7/11.8,建议 Git、7-Zip(解压模型)。
四 网络与端口配置
- 本地回环访问:Ollama 默认 http://localhost:11434;自建 FastAPI 常用 8000 端口。
- 防火墙放行(管理员 PowerShell):
- Ollama:New-NetFirewallRule -DisplayName "Ollama API" -Direction Inbound -LocalPort 11434 -Protocol TCP -Action Allow
- 自定义 API:New-NetFirewallRule -DisplayName "DeepSeek API" -Direction Inbound -LocalPort 8000 -Protocol TCP -Action Allow
- 如需局域网访问,可将服务绑定 0.0.0.0 并相应放行端口。
五 部署路径与运维准备
- 模型存放:建议统一到 C:modelsdeepseek_r1,便于权限与路径管理。
- 服务托管:可用 NSSM 将 Python/FastAPI 脚本注册为 Windows 服务,实现开机自启与后台运行。
- 日志与监控:Ollama 日志位于 C:Program FilesOllamalogsollama.log;可用 事件查看器 或 ollama logs -f <模型名> 实时排查。
- 常见问题速览:CUDA OOM 时降低 batch_size 或启用 4-bit 量化;模型加载失败检查路径权限与文件完整性(如 SHA256);端口冲突时调整 --port。