Windows安装DeepSeek R1的简明步骤
一 准备与版本选择
- 操作系统:Windows 10/11。
- 硬件建议:内存至少8GB(推荐16GB+);有NVIDIA显卡更佳(如RTX 3060 12GB可流畅运行7B量化;24GB显存可尝试14B/32B量化)。存储预留20–50GB可用空间(模型文件通常15–30GB)。
- 模型规模与资源占用(大致范围,量化后更省显存):
- 1.5B:CPU可跑,响应快,精度有限
- 7B:建议12–16GB显存(4bit量化),或32GB内存CPU推理
- 14B:建议24GB显存(4bit量化)
- 32B:建议24GB显存(4bit量化,速度较慢)
- 70B:多GPU/数据中心级配置
说明:显存估算可按“参数规模×2(FP16)×1.33(KV缓存)”粗略计算,量化(如4bit)可显著降低显存占用。以上为实践建议,具体取决于量化与上下文长度。
二 方法一 Ollama一键本地运行(推荐)
- 安装Ollama
- 访问官网:https://ollama.com/,下载并安装Windows版本(Ollama会在后台启动本地服务)。
- 运行DeepSeek R1
- 打开命令行(CMD或PowerShell),执行以下任一命令自动拉取并运行模型:
- 轻量体验:ollama run deepseek-r1:1.5b
- 进阶:ollama run deepseek-r1:7b(或8b/14b/32b/70b)
- 首次运行会下载模型,时间与网络相关。
- 常用命令
- 查看本地模型:ollama list
- 仅拉取不运行:ollama pull deepseek-r1:7b
- 图形界面客户端(可选)
- 安装Chatbox,在设置中选择Ollama API,API主机填:http://127.0.0.1:11434,模型选deepseek-r1:7b(或你下载的版本)。
说明:Ollama默认监听11434端口,确保本机防火墙未拦截;命令行建议以管理员身份运行以避免权限问题。
三 方法二 源码/Transformers方式(进阶,GPU加速)
- 环境准备
- 安装Python 3.8–3.10、Git;建议创建虚拟环境:
- python -m venv deepseek_env
- .deepseek_envScriptsactivate
- 安装PyTorch(CUDA 11.8示例):
- pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
- 安装推理依赖:
- pip install transformers>=4.34.0 accelerate sentencepiece einops
- 下载与加载模型
- 从Hugging Face获取模型(示例为7B):
- 使用Transformers直接加载(需较高显存):
- from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-7B", torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-7B")
- 显存优化(4bit量化,示例):
- pip install bitsandbytes
- model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-7B", device_map="auto", load_in_4bit=True, torch_dtype=torch.float16)
- 运行推理与可选服务
- 生成示例:
- inputs = tokenizer("介绍一下DeepSeek R1模型", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- 可选:使用vLLM进行高吞吐推理(需额外安装vLLM):
- llm = LLM(model="./deepseek-r1", tensor_parallel_size=2)
sampling_params = SamplingParams(temperature=0.7, top_p=0.9)
outputs = llm.generate(["如何评价大语言模型的涌现能力?"], sampling_params)
说明:该方式更灵活,适合开发与集成,但需要更高显存与更完整的Python环境。
四 常见问题与优化
- 下载慢或中断:更换网络、使用镜像源或代理;Ollama首次拉取模型耗时较长属正常。
- 显存不足:优先使用4bit量化(load_in_4bit=True);减少max_new_tokens与上下文长度;必要时改用更小模型(如1.5B/7B)。
- 端口占用:Ollama默认11434;如冲突,检查是否已有服务占用该端口或重启Ollama服务。
- 模型存储路径:可通过环境变量OLLAMA_MODELS自定义模型缓存目录,便于管理磁盘空间。
- 命令行报错:以管理员身份运行CMD/PowerShell;确保已安装最新显卡驱动与CUDA工具链(GPU场景)。