Windows环境下如何安装DeepSeekR1

AI技术
小华
2025-12-05

Windows下安装与运行 DeepSeek R1 的实用指南
一 方案总览与前置检查

  • 系统要求:Windows 10/11 64位,建议内存≥16GB;如需GPU加速,NVIDIA显卡驱动建议≥525.60.13,可用nvidia-smi查看驱动与CUDA信息。存储空间建议预留≥50GB(模型与依赖)。如使用CPU模式,确保CPU支持AVX2指令集。
  • 快速选择:
  • 零基础、最快上手:使用Ollama + ChatBox(命令行一键运行,图形界面聊天)。
  • 进阶可控:使用Transformers + PyTorch在本地推理(可量化、可控参数)。
  • 应用集成:将本地模型接入Dify/Cherry Studio做工作流与可视化。

二 方案一 Ollama 零基础一键运行(推荐)

  • 安装 Ollama
  • 从官网下载安装包(Windows版),双击安装,完成后在命令行执行ollama --version验证。
  • 运行 DeepSeek R1
  • 低配或首次体验:运行ollama run deepseek-r1:1.5b(会自动拉取并启动,适合CPU/小显存)。
  • 更高质量:运行ollama run deepseek-r1:7b(建议≥8GB显存)。
  • 图形界面聊天
  • 安装ChatBox,在设置中选择Ollama API,API地址填http://localhost:11434,模型选deepseek-r1:1.5bdeepseek-r1:7b即可对话。
  • 常用命令
  • 查看本地模型:ollama list
  • 仅拉取不运行:ollama pull deepseek-r1:7b

三 方案二 Transformers + PyTorch 原生推理(进阶)

  • 环境准备
  • 安装Python 3.10.x,建议使用conda创建隔离环境:conda create -n deepseek_env python=3.10.9 并激活。
  • 安装GPU版PyTorch(CUDA 11.8):pip install torch==2.0.1+cu118 -f https://download.pytorch.org/whl/torch_stable.html
  • 获取与加载模型
  • 从可信渠道下载模型文件(包含config.jsonpytorch_model.bintokenizer.json等),解压至如C:\models\deepseek_r1
  • 推理示例(按需调整参数):
  • from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
"./deepseek_r1",
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("./deepseek_r1")
inputs = tokenizer("用Python写一个快速排序。", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

  • 性能优化(可选)
  • 量化(4bit/8bit)降低显存占用:
  • from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4")
model = AutoModelForCausalLM.from_pretrained("./deepseek_r1", quantization_config=quantization_config, device_map="auto")
四 方案三 集成到 Dify 或 Cherry Studio(应用落地)

  • Dify 集成(本地模型)
  • 在Dify中配置本地模型供应商,指向本机推理服务或本地API,完成模型管理与工作流编排,适合私有化与多智能体场景。
  • Cherry Studio 集成(可视化聊天)
  • 安装 Cherry Studio,在设置中指定模型与分词器路径(如D:/models/deepseek-r1),并设置推理参数:max_length=2048temperature=0.7top_p=0.9,即可在桌面端使用。

五 常见问题与优化建议

  • 显存不足
  • 优先使用量化(如4bit/8bit),或选择更小的模型(如1.5B/7B);必要时降低max_new_tokensbatch_size
  • 启动报错与依赖缺失
  • 安装VC++ 2015-2022 可再发行组件;确保显卡驱动与CUDA版本匹配;Python环境建议使用3.10.x并配合对应PyTorch版本。
  • 提升推理速度
  • NVIDIA控制面板将电源管理模式设为最高性能优先;合理设置gpu_layers或使用低VRAM模式;Ollama可尝试设置OLLAMA_GPU_SPLIT限制显存占用。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序