如何在Windows成功部署DeepSeekR1

AI技术
小华
2026-01-10

Windows 10/11 本地部署 DeepSeek R1 实操指南
一 方案总览与版本选择

  • 推荐两条路线:

1) Ollama + 图形客户端(如 Open WebUI、ChatBox),上手最快,适合零基础与离线场景;
2) Python + Transformers 自建 API,可控性更强,适合二次开发与集成。

  • 模型规模与资源建议(按显存/内存选择):
  • 1.5B:入门,CPU 或低配独显即可;
  • 7B:建议 ≥12GB 显存(如 RTX 3060 12GB)或 32GB 内存做 CPU 推理;
  • 14B/32B:建议 24GB/48GB+ 显存64GB+ 内存
  • 满血版 R1 671B 需多卡/专业集群,个人设备不建议。
  • 系统要求:Windows 10/11 64 位,建议 16–32GB 内存SSD、稳定网络(离线需提前准备安装包与模型)。

二 方案一 Ollama 极速部署(推荐)

  • 步骤 1 安装 Ollama
  • 访问官网下载安装包(Windows 版),双击安装;
  • 验证:打开命令提示符执行 ollama --version,出现版本号即成功。
  • 步骤 2 拉取并运行模型
  • 命令行执行:ollama run deepseek-r1:1.5b(自动下载并进入对话);
  • 查看本地模型:ollama list
  • 步骤 3 图形界面(任选其一)
  • Open WebUI:需 Python 3.12(安装时勾选 Add to PATH),可选安装 Microsoft Visual C++ Build Tools
  • ChatBox:安装后设置 API 基础 URL 为 http://localhost:11434,模型填 deepseek-r1,点击“测试连接”。
  • 步骤 4 离线使用
  • 在联网机下载 Ollama 安装包与所需模型,拷入离线机;
  • 离线机执行 ollama serve 启动本地服务(默认监听 127.0.0.1:11434),再用 ChatBox 连接测试。
  • 步骤 5 常用验证与排障
  • API 连通性测试:curl http://localhost:11434/api/generate -d "{\"model\":\"deepseek-r1\",\"prompt\":\"Hello\"}"
  • 端口占用:netstat -ano | findstr 11434
  • 性能调优(示例):在配置中限制并发与显存层数,如 {"max_concurrent_requests": 2, "gpu_layers": 30}

三 方案二 Python Transformers 自建 API(进阶)

  • 步骤 1 环境准备
  • 建议 Python 3.10、创建虚拟环境;
  • GPU 用户安装与驱动匹配的 CUDA(如 11.812.x),验证:nvcc --versionnvidia-smi
  • 步骤 2 安装依赖与加载模型
  • 基础安装:pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  • 方式 A(Hugging Face 权重):
  • 安装 Transformers:pip install transformers
  • 代码加载(示例):
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
"deepseek-ai/deepseek-r1-7b",
torch_dtype=torch.float16,
device_map="auto",
load_in_8bit=True
)
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-r1-7b")
  • 方式 B(本地权重目录):将权重解压至如 C:modelsdeepseek_r1,然后 from_pretrained("C:/models/deepseek_r1")
  • 步骤 3 启动 FastAPI 服务
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
app = FastAPI()
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-r1-7b", torch_dtype=torch.float16, device_map="auto", load_in_8bit=True)
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-r1-7b")
@app.post("/generate")
async def generate(prompt: str):
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=512)
return {"text": tokenizer.decode(outputs[0], skip_special_tokens=True)}
# 运行:uvicorn main:app --reload --host 0.0.0.0 --port 8000
  • 步骤 4 可选优化
  • 量化:8-bit/4-bit 降低显存;
  • 精度与吞吐:torch.cuda.amp 混合精度、do_sample=False 提升稳定吞吐;
  • 引擎优化:ONNX 导出 + TensorRT 推理(适合高并发/低延迟)。

四 性能优化与常见问题

  • 资源与速度
  • 量化优先:7B 选 Q4_K_M/Q5_K_M,在显存与质量间折中;
  • 并发与显存:降低 max_concurrent_requests,适度设置 gpu_layers
  • 存储与加载:使用 SSD,模型与缓存分离。
  • 常见报错速解
  • “Ollama 服务启动失败/端口被占用”:netstat -ano | findstr 11434 查杀占用进程;
  • “ChatBox 无法连接”:确认 ollama serve 已运行、防火墙放行 11434
  • “缺少 VC++ 构建工具”:安装 Microsoft Visual C++ Build Tools
  • “CUDA out of memory”:减小 gpu_layers、启用 8-bit、降低 max_length 或改用更小模型。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序