Ollama是Windows下部署DeepSeek-R1的核心工具,可自动化处理模型依赖与环境配置。
cmd),输入ollama --version,若显示版本号则安装成功。%USERPROFILE%\.ollama\config.json),添加"registry": "https://your-mirror-source"。通过Ollama命令拉取DeepSeek-R1模型,支持多种量化版本(量化可降低显存占用,但会轻微影响生成质量):
ollama pull deepseek-r1:7b(约14GB);ollama pull deepseek-r1:4bit(约6GB,适合显存较小的设备)。拉取完成后,使用以下命令启动模型:
ollama run deepseek-r1:7b --config config.json其中config.json为自定义配置文件,可调整参数优化性能(示例见下文)。
创建config.json文件(位于模型目录或用户目录),调整以下参数:
{
"temperature": 0.7, // 生成多样性(0-1,越小越确定)
"top_p": 0.9, // 核采样阈值(0-1,越大越多样)
"max_tokens": 2000, // 最大生成token数
"context_window": 4096 // 上下文窗口大小(建议≥2048)
}通过--config参数指定配置文件路径,如ollama run deepseek-r1:7b --config config.json。
Chatbox是轻量化图形化界面,可与Ollama无缝集成,提升对话体验。
http://localhost:11434(Ollama默认端口);deepseek-r1(与拉取的模型名称一致);%USERPROFILE%\.ollama\config.json)中添加"auth_token": "your_token",提升安全性。使用Ollama的量化功能减少显存占用,例如生成4bit量化模型:
ollama create my-deepseek -f ./Modelfile --size 4bModelfile示例:
FROM deepseek-r1:7b
QUANTIZE q4_k_m # 4bit量化算法(可选q4_0、q4_k_m等)量化后模型显存占用约为原版的1/3(如7B模型从14GB降至6GB),生成质量下降约2%-5%。
确保已安装CUDA 12.1+和对应版本的cuDNN(如8.9+),并通过环境变量启用GPU加速:
set OLLAMA_ACCELERATOR=cuda
ollama serve验证Torch是否支持GPU:
import torch
print(torch.cuda.is_available()) # 应输出True开启后,模型推理速度可提升3-5倍。
根据任务需求调整上下文窗口大小(如对话场景建议2048-4096 tokens),避免过长上下文导致性能下降。在config.json中修改"context_window"参数即可。
--gpu-layers 0参数强制使用CPU(速度下降约60%,但可减少显存占用)。--flash-attention加速推理(需模型支持);禁用无关后台进程。ollama serve);确认防火墙是否允许11434端口;验证环境变量是否配置正确(ollama --version是否可用)。