在 Windows 上安装与运行 DeepSeek-R1 的实用步骤
一 环境准备与版本选择
- 操作系统:Windows 10 或 Windows 11(建议 64 位)。
- 硬件建议:
- 轻量体验:1.5B 版本,内存建议 ≥8GB(推荐 16GB+),无独显也可运行。
- 主流体验:7B/8B 版本,内存建议 ≥16GB(推荐 32GB+),有 4–8GB 显存 体验更佳。
- 进阶体验:14B/32B 版本,内存建议 32GB/64GB+,显存 12GB/24GB+ 更稳。
- 安装方式选型:
- 零门槛:使用 Ollama 一键拉取并运行模型(适合大多数用户)。
- 进阶可控:使用 Python + Transformers 直接加载模型(适合开发者,可控量化与推理参数)。
二 方法一 Ollama 零门槛本地运行(推荐)
- 步骤 1 安装 Ollama
- 访问官网 https://ollama.com/ 下载 Windows 安装包并安装(Ollama 会在后台提供本地推理服务)。
- 步骤 2 运行 DeepSeek-R1
- 打开 PowerShell 或 CMD,执行以下任一命令(会自动下载并进入对话):
- 轻量:ollama run deepseek-r1:1.5b
- 主流:ollama run deepseek-r1:7b(若未指定标签,部分环境会默认拉取 7B)
- 进阶:ollama run deepseek-r1:32b
- 步骤 3 常用命令
- 查看已安装模型:ollama list
- 再次启动对话:重复上面的 ollama run 命令即可(Ollama 会复用已下载模型)。
- 步骤 4 图形界面客户端(可选)
- 安装 Chatbox(https://chatboxai.app/),在设置里选择 Ollama API,API 主机填 http://127.0.0.1:11434,模型选择 deepseek-r1:1.5b(或你安装的对应标签)。
- 说明
- 首次下载耗时取决于网络,国内环境可能需要 30 分钟以上。
- 若出现权限或端口占用问题,尝试以 管理员 身份运行终端,或确认 Ollama 服务 已启动。
三 方法二 使用 Transformers 直接加载模型(开发者)
- 适用场景:需要对 量化、设备映射、生成参数 进行细粒度控制的用户。
- 步骤 1 准备环境
- 建议创建虚拟环境(Python 3.8–3.10),安装依赖:
- pip 安装:torch、transformers(如需 GPU,安装对应 CUDA 版本的 PyTorch)。
- 步骤 2 下载与加载
- 方式 A(Hugging Face 在线加载):
- 代码示例:
- from transformers import AutoModelForCausalLM, AutoTokenizer
- model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-7B", device_map="auto", torch_dtype="auto")
- tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-7B")
- 方式 B(本地 GGUF 文件 + Ollama 封装,便于复用):
- 下载 DeepSeek-R1-Distill-Qwen-1.5B-GGUF 模型文件(如 Q8_0 量化)。
- 在模型同目录创建 Modelfile(无后缀),写入:FROM D:/path/DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
- 终端执行:
- ollama create my_r1_1.5b -f Modelfile
- ollama run my_r1_1.5b
- 步骤 3 推理与优化
- 可使用 4-bit/8-bit 量化 降低显存占用(如 bitsandbytes 或 Transformers 的量化配置),并结合 device_map="auto" 自动分配设备。
四 常见问题与排查
- 下载慢或中断:国内网络对模型仓访问较慢,建议耐心等待或换时段重试;必要时使用合规的下载工具/镜像。
- 首次运行后再次启动:直接执行 ollama run deepseek-r1:你的标签 即可,无需重装。
- 命令行报错:尝试以 管理员 身份运行 PowerShell/CMD,或检查 Ollama 服务 是否正常运行。
- 显存不足:切换到 更小参数 或启用 量化(如 4-bit);必要时降低生成长度与批量。
- 客户端连不上:确认 http://127.0.0.1:11434 可访问,Ollama 服务处于运行状态。
五 硬件与模型选择建议
| 模型版本 | 最低内存 | 推荐内存 | 建议显存 | 典型用途 |
|---|
| 1.5B | 8GB | 16GB+ | 无硬性要求(≥1GB 可提升) | 轻量对话、入门体验 |
| 7B/8B | 16GB | 32GB+ | 4–8GB+ | 日常问答、代码与写作 |
| 14B | 32GB | 64GB+ | 8GB+ | 复杂推理、更稳输出 |
| 32B | 32GB | 64GB+ | 24GB+ | 高质量推理、专业任务 |