Llama3 在 Linux 部署所需资源清单
硬件资源
- 按模型规模与并发量准备下表所列的 CPU、内存、显存与存储,优先保证显存与内存充足,其次考虑磁盘与网络带宽(模型权重体积大,下载与加载都较耗时)。
| 模型版本 | CPU 建议 | GPU 建议 | 系统内存 | 显存 | 存储与带宽 |
|---|
| Llama 3 8B | ≥4 核(如 i7 同级) | ≥6–8GB VRAM(如 GTX 1060 6GB 起步;有实测 1660 Super 4GB 可跑但较紧张) | ≥16GB | ≥6–8GB(4GB 可勉强运行) | 预留 ≥20–30GB(权重+依赖);稳定高速网络用于拉取权重 |
| Llama 3 70B | 多核高频(如 i7-13700K 同级) | 多 24GB+ VRAM 显卡(如 RTX 3090 24GB;企业级可用 A100 40GB+) | ≥32GB(推荐 ≥64–256GB) | ≥24GB(推荐 40GB+) | 预留 ≥1TB SSD(权重与缓存);高带宽稳定网络 |
说明:权重体积与并发会显著影响内存/显存占用;70B 级别建议多卡或数据中心级 GPU。上述为推理场景建议,训练/微调需显著更高规格。
软件与系统
- 操作系统与基础环境
- Linux(推荐 Ubuntu 20.04/22.04),内核建议 ≥5.4;Python ≥3.8(推荐 3.10)。
- GPU 驱动与容器(如使用 Docker)
- NVIDIA 驱动 ≥525.60.13;如需容器 GPU 加速,安装 NVIDIA Container Toolkit 并配置 Docker nvidia runtime;常见稳定组合为 PyTorch 2.1.x + cu118 与 CUDA 11.8(注意版本严格匹配)。
- 部署方式与依赖
- 原生 Python:安装 transformers ≥4.39.0、PyTorch(CUDA 版)、CUDA Toolkit;使用 Hugging Face Transformers 加载与推理。
- Ollama 一键部署:在 Linux 上安装 Ollama,通过命令 ollama run llama3 拉取并运行模型;默认模型目录 /usr/share/ollama/.ollama/models/,服务端口 11434。
存储与网络
- 磁盘空间
- 8B:建议预留 ≥20–30GB(权重与依赖);70B:建议 ≥1TB SSD(权重、缓存与日志)。
- 模型拉取与持久化
- 使用 Ollama 时可将目录 /usr/share/ollama/.ollama/models/ 挂载到宿主机持久化;Docker 部署建议挂载卷保存模型与对话数据,避免容器重建后丢失。
- 网络带宽
- 权重文件较大,建议使用稳定、高带宽网络以缩短首次下载与后续更新时间。
运行环境与容量规划建议
- 上下文与并发
- 上下文长度(如 num_ctx)与批量大小会线性增加显存/内存占用;并发请求需按显存与内存余量规划,必要时降低并发或上下文长度。
- 资源预留与监控
- 为操作系统与其他服务预留 20–30% 内存/显存;使用 nvidia-smi / nvitop 实时监控 GPU 利用率、显存与温度,及时排查 OOM 与降速问题。