怎样在Windows系统部署DeepSeekR1

AI技术
小华
2026-01-10

Windows 部署 DeepSeek R1 的三种实用方案

一、方案总览与选型建议

方案难度依赖组件适用场景关键端口
Ollama + ChatBox(零基础/离线友好)Ollama、ChatBox个人/团队快速上手、本地对话、离线环境11434
Transformers + FastAPI(可控/可集成)Python 3.10、PyTorch、Transformers、FastAPI、Uvicorn需要自建 API、对接业务系统、二次开发自定义(示例 8000
Cherry Studio(可视化 Web UI)Python 3.8–3.10、Cherry Studio 项目、PyTorch可视化界面、文档问答/代码生成、轻量服务自定义(示例 7860

二、方案一 Ollama + ChatBox 零基础离线部署

  • 准备与安装
  • 系统要求:Windows 10/11 64位,建议内存≥16GB,预留≥50GB SSD 空间。
  • 安装 Ollama:双击安装包(默认路径 C:Program FilesOllama),完成后执行:
  • 验证:cmd 输入:ollama version
  • 安装 ChatBox:安装离线版,首次选择“离线模式”。
  • 模型导入与运行
  • 在线方式(有网):ollama pull deepseek-r1:latest
  • 离线方式(无网):将模型文件拷贝至 C:Users<用户名>.ollamamodels,创建 Modelfile 或使用 ollama create 导入,然后:
  • 运行:ollama run deepseek-r1:7b(首次会自动解压,约5–10分钟
  • 验证 API:curl http://localhost:11434/api/generate -d "{\"model\":\"deepseek-r1\",\"prompt\":\"Hello\"}"
  • ChatBox 配置与测试
  • 设置 > API:
  • Model:deepseek-r1
  • API Base URL:http://localhost:11434
  • 启用流式响应(可选)
  • 点击“测试连接”,成功后即可在 ChatBox 中对话;可断网验证离线能力。
  • 常见问题与优化
  • 端口占用:netstat -ano | findstr 11434 查杀占用进程;或在配置中更换端口。
  • 防火墙放行:New-NetFirewallRule -DisplayName "Ollama API" -Direction Inbound -LocalPort 11434 -Protocol TCP -Action Allow
  • 性能调优:在配置中限制并发(如 "max_concurrent_requests": 2)或启用 GPU 加速(如 "gpu_layers": 30)。
  • 数据安全:备份 .ollama 目录;对模型盘启用 BitLocker 加密。

三、方案二 Transformers + FastAPI 自建推理服务

  • 环境准备
  • 硬件建议:NVIDIA RTX 3060+(显存≥12GB 可跑 7B)32GB 内存更佳;SSD 存储。
  • 安装依赖(示例):
  • Chocolatey(管理员 PowerShell):
  • Set-ExecutionPolicy Bypass -Scope Process -Force
  • iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
  • choco install python --version=3.10.9 -y
  • choco install cuda -y
  • 环境变量:CUDA_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8,并将 %CUDA_PATH%\bin 加入 PATH。
  • Conda 虚拟环境:
  • conda create -n deepseek_env python=3.10.9
  • conda activate deepseek_env
  • GPU 版 PyTorch:pip install torch==2.0.1+cu118 -f https://download.pytorch.org/whl/torch_stable.html
  • 推理依赖:pip install fastapi uvicorn transformers[torch]
  • 模型与推理服务
  • 模型放置:将 DeepSeek R1 解压至 C:modelsdeepseek_r1(含 config.json、pytorch_model.bin、tokenizer.json)。
  • 启动服务(示例 deepseek_api.py):
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
app = FastAPI()
model = AutoModelForCausalLM.from_pretrained("C:/models/deepseek_r1", torch_dtype=torch.float16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("C:/models/deepseek_r1")
@app.post("/generate")
async def generate(prompt: str, max_tokens: int = 256):
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=inputs.input_ids.shape[1] + max_tokens, do_sample=True, temperature=0.7, top_p=0.9)
return {"text": tokenizer.decode(outputs[0], skip_special_tokens=True)}
  • 运行:uvicorn deepseek_api:app --host 0.0.0.0 --port 8000
  • 测试:curl -X POST http://localhost:8000/generate -H "Content-Type: application/json" -d "{\"prompt\":\"用Python写冒泡排序\",\"max_tokens\":128}"
  • 作为 Windows 服务(可选):choco install nssm -ynssm install DeepSeekService → Path 指向 python.exe,Arguments 指向脚本路径。
  • 性能优化与监控
  • 量化与加速:使用 8-bit 量化(load_in_8bit=True)或 ONNX + TensorRT 导出加速。
  • 监控:在 FastAPI 中记录推理延迟;结合 Prometheus + Grafana 做系统/业务指标可视化。

四、方案三 Cherry Studio 可视化 Web UI 部署

  • 安装与启动
  • 准备:Windows 10/11Python 3.8–3.10、CUDA 11.7/11.8(如需 GPU)。
  • 获取与安装:
  • git clone https://github.com/deepseek-ai/cherry-studio.git
  • cd cherry-studio && pip install -r requirements.txt
  • 建议使用虚拟环境:python -m venv cherry_env && cherry_env\Scripts\activate
  • 安装依赖:pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118pip install transformers>=4.34.0
  • 启动 Web UI:
  • python app.py --model-path C:\models\deepseek_r1 --port 7860
  • 浏览器访问:http://127.0.0.1:7860
  • 显存优化与多 GPU
  • 显存优化:使用 4-bit 量化load_in_4bit=True)显著降低显存占用(精度损失约2–3%)。
  • 多 GPU:model = nn.DataParallel(model, device_ids=[0,1])(视硬件与框架支持)。

五、常见问题与快速排查

  • CUDA/显存不足
  • 降低 batch_sizemax_tokens;开启 FP16/8-bit/4-bit;必要时改用 CPU 模式或更小模型(如 1.5B/7B)。
  • 模型加载失败
  • 检查 config.json 与权重文件完整性;校验文件哈希:certutil -hashfile model.safetensors SHA256
  • 服务端口冲突或被防火墙拦截
  • 更换端口或放行规则,例如:New-NetFirewallRule -DisplayName "DeepSeek API" -Direction Inbound -LocalPort 8000 -Protocol TCP -Action Allow
  • 离线环境准备
  • 在联网设备提前下载 Ollama 安装包、DeepSeek R1 模型文件、ChatBox 离线版,拷贝至 U 盘后在目标机器安装与导入。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序