Llama 3 的存储与内存需求概览
模型权重体积与磁盘空间
- 下表给出常见精度/量化下的权重体积(用于下载与磁盘占用),以及常见上下文窗口下的额外 KV 缓存占用(运行时内存的一部分)。
| 模型版本 | 精度/量化 | 权重体积(磁盘) | 额外 KV 缓存(约,n_ctx=2048) |
|---|
| 8B | FP16 | ≈16 GB | ≈4 GB |
| 8B | 8-bit 量化 | ≈8 GB | ≈4 GB |
| 8B | 4-bit 量化(Q4) | ≈4–5 GB | ≈4 GB |
| 70B | FP16 | ≈140 GB | ≈32 GB |
| 70B | 8-bit 量化 | ≈70 GB | ≈32 GB |
| 70B | 4-bit 量化(Q4) | ≈35–40 GB | ≈32 GB |
- 说明:权重体积取决于精度;KV 缓存与上下文长度、batch size 近似线性相关(翻倍则 KV 近似翻倍)。上述数值为典型参考,实际会因实现与库版本略有差异。
运行内存 RAM 建议
- 推理时总内存 ≈ 模型权重常驻内存 + KV 缓存 + 运行时开销(框架、系统、中间张量等)。
- 经验建议(单实例、n_ctx=2048、FP16 或等效精度):
- 8B:最低可用约 16 GB RAM;为流畅与余量,建议 32 GB RAM 及以上。
- 70B:最低可用约 172 GB RAM;建议 180 GB RAM 及以上,批量或高并发需进一步加内存。
快速估算与选型建议
- 快速估算公式(单实例、FP16 近似):RAM ≈ 权重体积 + KV 缓存(≈ 0.015 × 参数量 × n_ctx × batch)。例如:
- 8B、n_ctx=2048、batch=1:≈ 16 GB + 4 GB = ≈20 GB(建议上探至 32 GB 更稳)。
- 70B、n_ctx=2048、batch=1:≈ 140 GB + 32 GB = ≈172 GB(建议 ≥180 GB)。
- 选型要点:
- 个人/离线尝鲜:选 8B + 4-bit 量化(≈4–5 GB 权重),配 16–32 GB RAM 即可;上下文增大或并发时需相应加内存。
- 生产/高精度:选 70B + 8-bit/4-bit 量化,配 ≥128–256 GB RAM 更稳妥(视并发与上下文而定)。