DeepSeek R1在Windows上的部署技巧
Ollama是轻量级LLM推理工具,通过容器化技术隔离环境,支持GPU加速,适合Windows快速部署。
C:\Program Files\Ollama(可修改至非C盘,如D:\Program Files\Ollama)。ollama,无报错即成功。ollama run deepseek-r1:7b(7B版本),等待自动下载(约200MB元数据+分块文件)并校验。--gpu参数启用CUDA加速(如ollama run deepseek-r1:7b --gpu),提升推理性能。ollama list,应显示deepseek-r1:7b及存储路径。ollama run deepseek-r1:7b,对话输入“你好”,模型应返回流畅回应。CUDA_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8,并将%CUDA_PATH%\bin加入PATH,确保PyTorch能识别GPU。conda create -n deepseek_env python=3.10,激活后安装带GPU支持的PyTorch:pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118。torch_dtype=torch.float16,减少显存占用(如7B模型显存占用从12GB降至8GB)。C:\Program Files),否则会导致模型文件复制失败,需用引号包裹路径(如"C:\Program Files\Ollama")。--gpu-memory参数(如--gpu-memory 8GB)限制显存使用。nvcc --version验证CUDA版本。localhost:11434)及模型名称(deepseek-r1:7b),实现网页端对话交互,支持Markdown渲染。11434,通过HTTP请求调用模型:import requests
url = "http://localhost:11434/api/generate"
data = {
"model": "deepseek-r1:7b",
"prompt": "解释量子计算原理",
"stream": False
}
response = requests.post(url, json=data)
print(response.json()["response"])或使用curl命令:curl -X POST http://localhost:11434/api/generate -d '{"model": "deepseek-r1:7b", "prompt": "你好"}'。