Windows 上 DeepSeek‑R1 高效部署与优化要点
一 环境与硬件选型
二 三种常用部署路径
1) 安装 Ollama for Windows,完成后执行:ollama --version 验证;
2) 拉取量化版模型:ollama pull deepseek/r1:7b‑q4_k_m(4‑bit 量化,显存占用更低);
3) 启动服务:ollama serve(默认端口11434);
4) 简单调用:
from ollama import Client; client = Client(base_url='http://localhost:11434');
print(client.generate(model='deepseek/r1', prompt='解释量子计算')['response'])。
1) 准备模型:从官方渠道下载 R1 的 PyTorch 权重到如 C:modelsdeepseek_r1;
2) 启动服务(示例):
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
app = FastAPI()
model = AutoModelForCausalLM.from_pretrained("C:/models/deepseek_r1", torch_dtype=torch.float16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("C:/models/deepseek_r1")
@app.post("/generate")
async def generate(prompt: str):
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=512)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
3) 运行:uvicorn your_api:app --host 0.0.0.0 --port 8000;
4) 可选:用 NSSM 将脚本注册为 Windows 服务,便于开机自启与守护。
1) 安装 ChatBox;
2) 设置 API:URL 填 http://localhost:11434/api/generate,Model 填 deepseek/r1(或你导入的别名);
3) 可断网验证离线可用性。
三 性能优化与稳定性
四 常见问题与快速排查
五 与 Dify 集成构建应用
version: '3.8'
services:
dify-api:
image: langgenius/dify-api:latest
ports: ["8080:8080"]
environment:
db:
image: postgres:14
environment: