Ollama是Windows下部署DeepSeek-R1的核心工具,可自动化处理模型依赖与环境配置。
cmd
),输入ollama --version
,若显示版本号则安装成功。%USERPROFILE%\.ollama\config.json
),添加"registry": "https://your-mirror-source"
。通过Ollama命令拉取DeepSeek-R1模型,支持多种量化版本(量化可降低显存占用,但会轻微影响生成质量):
ollama pull deepseek-r1:7b
(约14GB);ollama pull deepseek-r1:4bit
(约6GB,适合显存较小的设备)。拉取完成后,使用以下命令启动模型:
ollama run deepseek-r1:7b --config config.json
其中config.json
为自定义配置文件,可调整参数优化性能(示例见下文)。
创建config.json
文件(位于模型目录或用户目录),调整以下参数:
{
"temperature": 0.7, // 生成多样性(0-1,越小越确定)
"top_p": 0.9, // 核采样阈值(0-1,越大越多样)
"max_tokens": 2000, // 最大生成token数
"context_window": 4096 // 上下文窗口大小(建议≥2048)
}
通过--config
参数指定配置文件路径,如ollama run deepseek-r1:7b --config config.json
。
Chatbox是轻量化图形化界面,可与Ollama无缝集成,提升对话体验。
http://localhost:11434
(Ollama默认端口);deepseek-r1
(与拉取的模型名称一致);%USERPROFILE%\.ollama\config.json
)中添加"auth_token": "your_token"
,提升安全性。使用Ollama的量化功能减少显存占用,例如生成4bit量化模型:
ollama create my-deepseek -f ./Modelfile --size 4b
Modelfile示例:
FROM deepseek-r1:7b
QUANTIZE q4_k_m # 4bit量化算法(可选q4_0、q4_k_m等)
量化后模型显存占用约为原版的1/3(如7B模型从14GB降至6GB),生成质量下降约2%-5%。
确保已安装CUDA 12.1+和对应版本的cuDNN(如8.9+),并通过环境变量启用GPU加速:
set OLLAMA_ACCELERATOR=cuda
ollama serve
验证Torch是否支持GPU:
import torch
print(torch.cuda.is_available()) # 应输出True
开启后,模型推理速度可提升3-5倍。
根据任务需求调整上下文窗口大小(如对话场景建议2048-4096 tokens),避免过长上下文导致性能下降。在config.json
中修改"context_window"
参数即可。
--gpu-layers 0
参数强制使用CPU(速度下降约60%,但可减少显存占用)。--flash-attention
加速推理(需模型支持);禁用无关后台进程。ollama serve
);确认防火墙是否允许11434端口;验证环境变量是否配置正确(ollama --version
是否可用)。