• 首页 > 
  • AI技术 > 
  • 安装DeepSeekR1到Windows的步骤是什么

安装DeepSeekR1到Windows的步骤是什么

AI技术
小华
2025-12-05

Windows安装DeepSeek R1的简明步骤
一 准备与版本选择

  • 操作系统:Windows 10/11
  • 硬件建议:内存至少8GB(推荐16GB+);有NVIDIA显卡更佳(如RTX 3060 12GB可流畅运行7B量化;24GB显存可尝试14B/32B量化)。存储预留20–50GB可用空间(模型文件通常15–30GB)。
  • 模型规模与资源占用(大致范围,量化后更省显存):
  • 1.5B:CPU可跑,响应快,精度有限
  • 7B:建议12–16GB显存(4bit量化),或32GB内存CPU推理
  • 14B:建议24GB显存(4bit量化)
  • 32B:建议24GB显存(4bit量化,速度较慢)
  • 70B:多GPU/数据中心级配置

说明:显存估算可按“参数规模×2(FP16)×1.33(KV缓存)”粗略计算,量化(如4bit)可显著降低显存占用。以上为实践建议,具体取决于量化与上下文长度。
二 方法一 Ollama一键本地运行(推荐)

  • 安装Ollama
  • 访问官网:https://ollama.com/,下载并安装Windows版本(Ollama会在后台启动本地服务)。
  • 运行DeepSeek R1
  • 打开命令行(CMD或PowerShell),执行以下任一命令自动拉取并运行模型:
  • 轻量体验:ollama run deepseek-r1:1.5b
  • 进阶:ollama run deepseek-r1:7b(或8b/14b/32b/70b
  • 首次运行会下载模型,时间与网络相关。
  • 常用命令
  • 查看本地模型:ollama list
  • 仅拉取不运行:ollama pull deepseek-r1:7b
  • 图形界面客户端(可选)
  • 安装Chatbox,在设置中选择Ollama API,API主机填:http://127.0.0.1:11434,模型选deepseek-r1:7b(或你下载的版本)。

说明:Ollama默认监听11434端口,确保本机防火墙未拦截;命令行建议以管理员身份运行以避免权限问题。
三 方法二 源码/Transformers方式(进阶,GPU加速)

  • 环境准备
  • 安装Python 3.8–3.10Git;建议创建虚拟环境:
  • python -m venv deepseek_env
  • .deepseek_envScriptsactivate
  • 安装PyTorch(CUDA 11.8示例):
  • pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  • 安装推理依赖:
  • pip install transformers>=4.34.0 accelerate sentencepiece einops
  • 下载与加载模型
  • 从Hugging Face获取模型(示例为7B):
  • 使用Transformers直接加载(需较高显存):
  • from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-7B", torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-7B")

  • 显存优化(4bit量化,示例):
  • pip install bitsandbytes
  • model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-7B", device_map="auto", load_in_4bit=True, torch_dtype=torch.float16)
  • 运行推理与可选服务
  • 生成示例:
  • inputs = tokenizer("介绍一下DeepSeek R1模型", return_tensors="pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

  • 可选:使用vLLM进行高吞吐推理(需额外安装vLLM):
  • llm = LLM(model="./deepseek-r1", tensor_parallel_size=2)

sampling_params = SamplingParams(temperature=0.7, top_p=0.9)
outputs = llm.generate(["如何评价大语言模型的涌现能力?"], sampling_params)
说明:该方式更灵活,适合开发与集成,但需要更高显存与更完整的Python环境。
四 常见问题与优化

  • 下载慢或中断:更换网络、使用镜像源或代理;Ollama首次拉取模型耗时较长属正常。
  • 显存不足:优先使用4bit量化(load_in_4bit=True);减少max_new_tokens与上下文长度;必要时改用更小模型(如1.5B/7B)。
  • 端口占用:Ollama默认11434;如冲突,检查是否已有服务占用该端口或重启Ollama服务。
  • 模型存储路径:可通过环境变量OLLAMA_MODELS自定义模型缓存目录,便于管理磁盘空间。
  • 命令行报错:以管理员身份运行CMD/PowerShell;确保已安装最新显卡驱动与CUDA工具链(GPU场景)。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序