如何在Windows环境下部署DeepSeekR1 - AI技术

Windows下部署 DeepSeek‑R1 的可行路线

方案一 Ollama一键运行（最省事）：在 Windows 10/11 安装 Ollama，直接拉取并运行 deepseek‑r1:7b/33b，几分钟内即可通过本地 API 对话与集成。适合零基础与快速验证。
方案二 Transformers直连（可控性最强）：用 Python 3.10 + PyTorch + Transformers 在本机加载模型，支持自定义推理服务、量化与高级优化，适合开发者与需要二次开发的人群。
方案三可视化客户端（上手即用）：搭配 Cherry Studio 或 ChatBox，连接本地 Ollama 服务即可获得图形化聊天界面，适合非开发用户。

方案一 Ollama 快速部署与调用

环境与版本
操作系统：Windows 10/11 64位
内存：≥16GB（7B建议 32GB+）
磁盘：≥50GB（含模型与缓存）
可选 GPU：NVIDIA 显卡，驱动版本 ≥525.60.13（用 nvidia‑smi 验证）
安装与启动

1) 安装 Ollama Windows 版（安装后可用命令行执行 ollama 命令）
2) 启动服务（默认监听 11434 端口）：
ollama serve
3) 拉取并运行模型：
ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b
4) 验证 API（非流式）：
curl http://localhost:11434/api/generate -d "{"prompt":"你好","stream":false}"
5) 如需局域网访问，设置环境变量：
OLLAMA_HOST=0.0.0.0
OLLAMA_PORT=11434

离线使用要点
在有网环境预先拉取模型：ollama pull deepseek-r1:7b
将模型目录（如 C:Users<用户名>.ollamamodels）拷贝到离线机器相同路径，直接运行 ollama run deepseek-r1:7b 即可

方案二 Transformers 直连与推理服务

环境准备
Python：3.10（建议新建虚拟环境）
GPU（可选）：CUDA 11.7/11.8，驱动 ≥525.60.13
安装依赖（示例）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers>=4.30.0 accelerate

最小推理示例（FP16 + device_map）

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_path = r"C:\models\deepseek_r1"  # 本地模型目录
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16,
device_map="auto"
)
def generate(prompt, max_new_tokens=256):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=True, temperature=0.7)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
if __name__ == "__main__":
print(generate("用Python写一个快速排序。"))

构建本地 API（FastAPI + Uvicorn）

# pip install fastapi uvicorn
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch, uvicorn
app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained(r"C:\models\deepseek_r1")
model = AutoModelForCausalLM.from_pretrained(
r"C:\models\deepseek_r1",
torch_dtype=torch.float16,
device_map="auto"
)
@app.post("/generate")
async def generate(prompt: str, max_new_tokens: int = 256):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=True, temperature=0.7)
return {"text": tokenizer.decode(outputs[0], skip_special_tokens=True)}
if __name__ == "__main__":
uvicorn.run(app, host="0.0.0.0", port=8000)

显存优化建议
4-bit 量化（需 bitsandbytes）：load_in_4bit=True，显存占用可降至约原来的 1/4，精度损失通常 2–3%。

方案三可视化客户端连接本地模型

Cherry Studio
安装与启动：

git clone https://github.com/deepseek-ai/cherry-studio.git
cd cherry-studio && pip install -r requirements.txt
python app.py --model-path C:modelsdeepseek_r1 --port 7860

浏览器访问 http://localhost:7860 使用图形化界面。
ChatBox
安装 ChatBox，进入 Settings > API，配置：

URL: http://localhost:11434/api/generate
Model: deepseek-r1:7b

适合零基础对话与离线演示。

常见问题与排障要点

CUDA 内存不足
降低生成参数：max_new_tokens / batch_size
使用量化：load_in_4bit=True 或 load_in_8bit=True
清理显存：torch.cuda.empty_cache()
服务端口与访问
Ollama 默认 11434；如需局域网访问，设置 OLLAMA_HOST=0.0.0.0
自定义 API 端口（如 8000）需在防火墙放行对应端口
驱动与版本匹配
用 nvidia-smi 与 nvcc --version 检查驱动与 CUDA 一致性
PyTorch、Transformers、CUDA 版本需匹配（如 cu118 对应相应 PyTorch 版本）
离线部署
在有网机预先拉取模型（Ollama：ollama pull；Transformers：snapshot_download）
将模型目录拷贝到离线机相同路径后直接运行