DeepSeek R1 配置常见问题解答
一 硬件与系统环境
nvidia-smi 与 nvcc --version 校验版本。python -c "import torch; print(torch.__version__, torch.cuda.is_available())" 应返回 PyTorch 版本与 True。二 依赖安装与版本匹配
conda create -n deepseek python=3.10 并激活环境。pip install torch==2.0.1+cu118 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118;配合 transformers==4.35.0、accelerate==0.25.0。conda install -c nvidia cuda-toolkit=11.8 保持一致。三 模型获取 量化与加载
device_map="auto"、low_cpu_mem_usage=True 加速加载并降低 CPU 内存占用;多卡可用 张量并行 与 max_memory 控制单卡显存上限。四 推理部署与服务化
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-7B")model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-7B", torch_dtype=torch.float16, device_map="auto", load_in_8bit=True)/generate 接口,uvicorn main:app --host 0.0.0.0 --port 8000 --workers 4 启动;结合 动态批处理 与 流式输出 提升吞吐与交互体验。batch_size=8、max_length=512 起步做权衡;用 nvtop/nvidia-smi dmon 监控 GPU 利用率;必要时启用 梯度检查点 降低显存峰值。五 常见报错与快速修复
batch_size 与 max_length;切换 INT8/FP8 量化;设置 max_memory={0: "15GB"};必要时启用 梯度检查点。conda install -c nvidia cuda-toolkit=11.8 统一版本。low_cpu_mem_usage=True 与 accelerate;使用 device_map="auto" 减少手工分片。temperature=0.1–0.3(确定性)或 0.7–1.0(创造性),top_p=0.9、top_k=50,repetition_penalty=1.2。netstat -aon | findstr 11434 查 PID,taskkill /PID /F 释放端口;Ollama 默认监听 127.0.0.1:11434。D:\ollama_models),避免占满系统盘。