Windows下安装与运行 DeepSeek R1 的实用指南
一 方案总览与前置检查
nvidia-smi查看驱动与CUDA信息。存储空间建议预留≥50GB(模型与依赖)。如使用CPU模式,确保CPU支持AVX2指令集。二 方案一 Ollama 零基础一键运行(推荐)
ollama --version验证。ollama run deepseek-r1:1.5b(会自动拉取并启动,适合CPU/小显存)。ollama run deepseek-r1:7b(建议≥8GB显存)。http://localhost:11434,模型选deepseek-r1:1.5b或deepseek-r1:7b即可对话。ollama listollama pull deepseek-r1:7b三 方案二 Transformers + PyTorch 原生推理(进阶)
conda create -n deepseek_env python=3.10.9 并激活。pip install torch==2.0.1+cu118 -f https://download.pytorch.org/whl/torch_stable.html。config.json、pytorch_model.bin、tokenizer.json等),解压至如C:\models\deepseek_r1。model = AutoModelForCausalLM.from_pretrained(
"./deepseek_r1",
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("./deepseek_r1")
inputs = tokenizer("用Python写一个快速排序。", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
quantization_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4")
model = AutoModelForCausalLM.from_pretrained("./deepseek_r1", quantization_config=quantization_config, device_map="auto")
四 方案三 集成到 Dify 或 Cherry Studio(应用落地)
D:/models/deepseek-r1),并设置推理参数:max_length=2048、temperature=0.7、top_p=0.9,即可在桌面端使用。五 常见问题与优化建议
max_new_tokens与batch_size。gpu_layers或使用低VRAM模式;Ollama可尝试设置OLLAMA_GPU_SPLIT限制显存占用。