pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121安装)。ollama pull deepseek-r1:7b),适合新手快速上手;可通过配置文件(config.json)调整模型参数(温度、top_p、max_tokens等),优化推理效果。conda create -n deepseek python=3.10,激活后安装PyTorch等依赖。ollama pull deepseek-r1:7b(首次拉取需科学上网或配置国内镜像源);git lfs install && git clone https://huggingface.co/deepseek-ai/DeepSeek-R1,解压后使用PyTorch加载。ollama create my-deepseek -f ./Modelfile --size 4b(Modelfile示例:FROM deepseek-r1:7b + QUANTIZE q4_k_m);--gpu-layers参数控制GPU层数(如ollama run deepseek-r1:7b --gpu-layers 50,将50层加载至GPU,提升推理速度)。torch_dtype=torch.float16)和device_map="auto"(自动分配多GPU资源),提升推理速度(RTX 4090上7B模型可达32 tokens/s,较CPU模式提升8倍);batch_size=8(显存允许情况下),提高吞吐量。model.save_pretrained("./deepseek-r1-ggml")),通过from ctransformers import AutoModelForCausalLM加载,支持CPU推理(速度较GPU慢,但适合小模型或低资源场景)。http://localhost:11434(Ollama默认端口),设置认证令牌(可选,在Ollama配置文件中添加auth_token: "your_token");D:\Program Files\Ollama)时,需用引号包裹路径(避免目录不支持空格);若大模型文件放在非C盘,需配置环境变量并将C盘模型目录复制至新位置,重启Ollama生效。--gpu-layers参数减少GPU层数(如--gpu-layers 30);关闭后台占用显存的程序(如游戏、设计软件)。pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple);检查Python版本是否符合要求(3.10及以上)。