内存需求概览
按模型规模与场景的内存需求
| 模型与精度 | 典型场景 | 系统内存 RAM 需求 | 说明 |
|---|---|---|---|
| Llama 3 8B(FP16/BF16) | 单卡推理(如24GB VRAM) | 30–40GB | 参数约16GB;KV缓存(seq=2048、batch=4)约10–15GB;激活约5–10GB |
| Llama 3 8B(量化 Q4/Q5) | CPU-only 或入门级 GPU | 16–32GB | 量化后参数约3–6GB;KV与激活占用更低;桌面部署常见建议为16GB 起,更推荐32GB |
| Llama 3 70B(FP16/BF16) | 多卡推理/训练 | 230–250GB | 参数约140GB;KV约60GB;激活约30GB(未优化峰值) |
| Llama 3 70B(优化后) | 多卡并行+动态KV+检查点 | 182–200GB | 通过量化/动态KV/并行等,峰值可较未优化下降约20–30% |
快速估算方法与示例
部署与优化建议