1. 系统与硬件要求
2. 软件依赖与环境配置
cuda\lib\x64\cudnn.lib复制至CUDA安装目录的lib\x64文件夹(如C:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.1libx64)。conda create -n deepseek_env python=3.10),避免依赖冲突;安装PyTorch GPU版本(如pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121),确保与CUDA版本匹配。3. 模型部署关键步骤
ollama pull deepseek-r1:7b),自动完成模型元数据下载与校验;可选择ollama pull deepseek-r1:13b拉取更大参数模型(需更高硬件配置)。ollama serve --gpu命令启动推理服务,--gpu参数启用CUDA加速(需NVIDIA显卡);可通过--port 11434自定义API端口(默认11434),--log-level debug开启详细日志(调试用)。OLLAMA_MODELS(如set OLLAMA_MODELS=D:\models\deepseek),模型将下载至指定目录;避免存储在C盘(易出现空间不足问题)。4. 性能优化技巧
config.yaml文件,设置num_ctx: 4096(上下文长度,提升长文本处理能力)、num_gqa: 8(分组查询注意力头数,优化推理速度)、num_gpu: 1(启用GPU加速)、main_gpu: 0(指定主GPU索引)。bitsandbytes库)或8-bit量化,降低模型显存占用(如7B模型从13GB降至8GB);在config.yaml中设置quantize: "int8",或在启动命令中添加--quantize int8。accelerate库),将部分计算任务转移至CPU;在config.yaml中设置device_map: "auto",或在启动命令中添加--device-map auto。5. 常见问题排查
max_length: 512)、启用CPU Offload或升级显卡驱动。nvcc --version验证CUDA版本。config.json中的model_type为deepseek-r1、确保模型路径正确(如C:\models\deepseek_r1)。ollama list查看模型状态)。