Windows系统部署DeepSeekR1全流程指南
Invoke-WebRequest -Uri "https://ollama.ai/install.ps1" -OutFile "install.ps1"; .\install.ps1
,安装后需将Ollama添加至系统PATH环境变量;conda create -n deepseek python=3.10
),激活后安装PyTorch(GPU版需指定CUDA版本,如pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
)。通过Ollama命令拉取预编译模型(支持多种量化版本,降低硬件需求):
ollama pull deepseek/r1:7b
(约14GB);ollama pull deepseek/r1:4bit
(约6GB);ollama run deepseek-r1:1.5b
(无需GPU即可运行)。ollama run deepseek-r1:7b
(默认使用GPU加速,若显存不足可添加--gpu-layers 0
强制使用CPU,但速度下降约60%);--config
指定配置文件(如config.json
),调整推理参数:{
"temperature": 0.7, // 生成多样性(0-1)
"top_p": 0.9, // 核采样阈值
"max_tokens": 2000, // 最大生成token数
"context_window": 4096 // 上下文窗口大小
}
命令示例:ollama run deepseek-r1:7b --config config.json
。
ollama create my-deepseek -f ./Modelfile --size 4b
(Modelfile内容:FROM deepseek-r1:7b; QUANTIZE q4_k_m
);context_window
(如文本生成建议2048-4096,代码补全建议1024-2048);temperature
(0.2-0.5),生成创意内容时提高top_p
(0.9-1.0)。C:\Program Files\Ollama
)至PATH。--gpu-layers 0
强制使用CPU(牺牲速度换取内存);max_tokens
(如从2000减少至1000);--flash-attention
加速推理(需模型支持);from fastapi import FastAPI; import ollama; app = FastAPI(); @app.post("/generate"); async def generate(prompt: str): response = ollama.generate(model="deepseek-r1", prompt=prompt); return response
);http://localhost:11434
;认证令牌:可选,在Ollama配置文件中添加auth_token: "your_token"
)。