安装DeepSeekR1需要哪些步骤

AI技术
小华
2026-01-03

DeepSeek R1 安装步骤
一 安装前准备

  • 硬件建议
  • 轻量体验:1.5B/8B 可在 CPU 或入门独显运行,内存建议 ≥16GB,存储预留 ≥50GB
  • 推荐体验:14B/32B 建议 NVIDIA RTX 3060 12GB+内存 ≥32GB,使用 NVMe SSD 提升加载与推理速度。
  • 进阶体验:70B 建议 A100/H100 或 RTX 4090 24GB+,并配合量化或张量并行。
  • 软件环境
  • 操作系统:Ubuntu 20.04/22.04 LTS(推荐)、Windows 10/11(WSL2)macOS
  • Python:3.8–3.10;建议创建虚拟环境(conda/venv)。
  • GPU 驱动与工具链:安装与显卡匹配的 CUDA 11.8+cuDNN,如需容器化使用 NVIDIA Docker

二 方法一 Ollama 极速本地运行(适合零基础)

  • 步骤

1) 安装 Ollama(支持 Windows/macOS/Linux):访问 ollama.com/download 下载并安装。
2) 在终端一键拉取并运行模型(会自动下载权重):

  • 轻量:ollama run deepseek-r1:1.5b
  • 通用:ollama run deepseek-r1:8b
  • 进阶:ollama run deepseek-r1:14b / 32b
  • 高性能:ollama run deepseek-r1:70b
  • 默认:ollama run deepseek-r1(通常拉取 7B 版本)

3) 可选 GUI:安装 Chatbox,在设置里选择 Ollama API,API 主机填 http://127.0.0.1:11434,模型选 DeepSeek R1

  • 说明
  • 模型体积较大,下载时间取决于网络;首次运行会自动完成模型拉取与初始化。

三 方法二 Transformers 原生推理(适合开发者)

  • 步骤

1) 创建虚拟环境并安装依赖:

  • conda create -n deepseek_r1 python=3.9
  • conda activate deepseek_r1
  • pip install torch==1.13.1+cu118 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
  • pip install transformers accelerate

2) 直接加载并推理(以 7B 为例):

  • from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-7B", torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-7B")
inputs = tokenizer("解释量子计算的基本原理:", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
3) 显存优化(可选)

  • 8-bit 量化:使用 BitsAndBytesConfig(load_in_8bit=True)
  • 4-bit 量化:使用 load_in_4bit=True(需相应内核支持)
  • 说明
  • 适合需要自定义推理逻辑、集成到现有 Python 服务的场景。

四 方法三 Docker 容器化部署(适合团队与企业)

  • 步骤

1) 构建镜像(示例使用 CUDA 11.8 基础镜像):

  • FROM nvidia/cuda:11.8.0-base-ubuntu20.04

RUN apt-get update && apt-get install -y python3 python3-pip git
RUN pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
RUN pip3 install transformers accelerate
WORKDIR /app
COPY . /app
RUN pip3 install .
CMD ["python3", "-m", "deepseek_r1.serve"]
2) 构建与运行:

  • docker build -t deepseek-r1 .
  • docker run --gpus all -p 8080:8080 deepseek-r1

3) 验证:浏览器访问 http://localhost:8080 或使用 API 客户端测试。

  • 说明
  • 便于环境隔离、快速交付与横向扩展;如需 Kubernetes 编排,可进一步封装为 Deployment/Service

五 验证与常见问题

  • 快速验证
  • Ollama:终端执行 ollama run deepseek-r1 "用 Python 写个冒泡排序",能正常输出即成功。
  • Transformers:运行上面的 推理示例代码,能生成文本即成功。
  • Docker:访问 http://127.0.0.1:8080 返回服务状态或生成结果即成功。
  • 常见问题
  • CUDA 内存不足:减小 max_lengthbatch_size,启用 8/4-bit 量化,或使用 device_map="auto"offload 分片加载。
  • 模型加载慢/超时:检查网络与磁盘 IO,使用 NVMe SSD,必要时设置代理环境变量;大文件可分片加载。
  • API 访问失败:确认容器或本机 防火墙 已放行对应端口(如 114348080),并查看服务日志定位错误。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序