pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
安装)。ollama pull deepseek-r1:7b
),适合新手快速上手;可通过配置文件(config.json
)调整模型参数(温度、top_p、max_tokens等),优化推理效果。conda create -n deepseek python=3.10
,激活后安装PyTorch等依赖。ollama pull deepseek-r1:7b
(首次拉取需科学上网或配置国内镜像源);git lfs install && git clone https://huggingface.co/deepseek-ai/DeepSeek-R1
,解压后使用PyTorch加载。ollama create my-deepseek -f ./Modelfile --size 4b
(Modelfile示例:FROM deepseek-r1:7b
+ QUANTIZE q4_k_m
);--gpu-layers
参数控制GPU层数(如ollama run deepseek-r1:7b --gpu-layers 50
,将50层加载至GPU,提升推理速度)。torch_dtype=torch.float16
)和device_map="auto"
(自动分配多GPU资源),提升推理速度(RTX 4090上7B模型可达32 tokens/s,较CPU模式提升8倍);batch_size=8
(显存允许情况下),提高吞吐量。model.save_pretrained("./deepseek-r1-ggml")
),通过from ctransformers import AutoModelForCausalLM
加载,支持CPU推理(速度较GPU慢,但适合小模型或低资源场景)。http://localhost:11434
(Ollama默认端口),设置认证令牌(可选,在Ollama配置文件中添加auth_token: "your_token"
);D:\Program Files\Ollama
)时,需用引号包裹路径(避免目录不支持空格);若大模型文件放在非C盘,需配置环境变量并将C盘模型目录复制至新位置,重启Ollama生效。--gpu-layers
参数减少GPU层数(如--gpu-layers 30
);关闭后台占用显存的程序(如游戏、设计软件)。pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
);检查Python版本是否符合要求(3.10及以上)。