如何在Windows环境下部署DeepSeekR1

AI技术
小华
2025-12-04

Windows下部署 DeepSeek‑R1 的可行路线

  • 方案一 Ollama一键运行(最省事):在 Windows 10/11 安装 Ollama,直接拉取并运行 deepseek‑r1:7b/33b,几分钟内即可通过本地 API 对话与集成。适合零基础与快速验证。
  • 方案二 Transformers直连(可控性最强):用 Python 3.10 + PyTorch + Transformers 在本机加载模型,支持自定义推理服务、量化与高级优化,适合开发者与需要二次开发的人群。
  • 方案三 可视化客户端(上手即用):搭配 Cherry StudioChatBox,连接本地 Ollama 服务即可获得图形化聊天界面,适合非开发用户。

方案一 Ollama 快速部署与调用

  • 环境与版本
  • 操作系统:Windows 10/11 64位
  • 内存:≥16GB(7B建议 32GB+
  • 磁盘:≥50GB(含模型与缓存)
  • 可选 GPU:NVIDIA 显卡,驱动版本 ≥525.60.13(用 nvidia‑smi 验证)
  • 安装与启动

1) 安装 Ollama Windows 版(安装后可用命令行执行 ollama 命令)
2) 启动服务(默认监听 11434 端口):
ollama serve
3) 拉取并运行模型:
ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b
4) 验证 API(非流式):
curl http://localhost:11434/api/generate -d "{"prompt":"你好","stream":false}"
5) 如需局域网访问,设置环境变量:
OLLAMA_HOST=0.0.0.0
OLLAMA_PORT=11434

  • 离线使用要点
  • 在有网环境预先拉取模型:ollama pull deepseek-r1:7b
  • 将模型目录(如 C:Users<用户名>.ollamamodels)拷贝到离线机器相同路径,直接运行 ollama run deepseek-r1:7b 即可

方案二 Transformers 直连与推理服务

  • 环境准备
  • Python:3.10(建议新建虚拟环境)
  • GPU(可选):CUDA 11.7/11.8,驱动 ≥525.60.13
  • 安装依赖(示例):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers>=4.30.0 accelerate

  • 最小推理示例(FP16 + device_map)
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_path = r"C:\models\deepseek_r1"  # 本地模型目录
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16,
device_map="auto"
)
def generate(prompt, max_new_tokens=256):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=True, temperature=0.7)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
if __name__ == "__main__":
print(generate("用Python写一个快速排序。"))
  • 构建本地 API(FastAPI + Uvicorn)
# pip install fastapi uvicorn
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch, uvicorn
app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained(r"C:\models\deepseek_r1")
model = AutoModelForCausalLM.from_pretrained(
r"C:\models\deepseek_r1",
torch_dtype=torch.float16,
device_map="auto"
)
@app.post("/generate")
async def generate(prompt: str, max_new_tokens: int = 256):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=True, temperature=0.7)
return {"text": tokenizer.decode(outputs[0], skip_special_tokens=True)}
if __name__ == "__main__":
uvicorn.run(app, host="0.0.0.0", port=8000)
  • 显存优化建议
  • 4-bit 量化(需 bitsandbytes):load_in_4bit=True,显存占用可降至约原来的 1/4,精度损失通常 2–3%

方案三 可视化客户端连接本地模型

  • Cherry Studio
  • 安装与启动:

git clone https://github.com/deepseek-ai/cherry-studio.git
cd cherry-studio && pip install -r requirements.txt
python app.py --model-path C:modelsdeepseek_r1 --port 7860

  • 浏览器访问 http://localhost:7860 使用图形化界面。
  • ChatBox
  • 安装 ChatBox,进入 Settings > API,配置:

URL: http://localhost:11434/api/generate
Model: deepseek-r1:7b

  • 适合零基础对话与离线演示。

常见问题与排障要点

  • CUDA 内存不足
  • 降低生成参数:max_new_tokens / batch_size
  • 使用量化:load_in_4bit=True 或 load_in_8bit=True
  • 清理显存:torch.cuda.empty_cache()
  • 服务端口与访问
  • Ollama 默认 11434;如需局域网访问,设置 OLLAMA_HOST=0.0.0.0
  • 自定义 API 端口(如 8000)需在防火墙放行对应端口
  • 驱动与版本匹配
  • 用 nvidia-smi 与 nvcc --version 检查驱动与 CUDA 一致性
  • PyTorch、Transformers、CUDA 版本需匹配(如 cu118 对应相应 PyTorch 版本)
  • 离线部署
  • 在有网机预先拉取模型(Ollama:ollama pull;Transformers:snapshot_download)
  • 将模型目录拷贝到离线机相同路径后直接运行
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序