Llama 3 在 Linux 上的资源消耗概览
不同模型与精度的典型内存占用
| 模型与精度 | 典型场景 | 系统/显存占用(约) | 说明 |
|---|---|---|---|
| Llama 3 8B(BF16/FP16) | 推理,seq=2048,bs=4 | 未优化:合计30–40GB(参数16GB + KV 10–15GB + 激活5–10GB);优化后:23–30GB | 24GB 显存可跑,32GB 更稳 |
| Llama 3 70B(BF16/FP16) | 推理,seq=2048,bs=4 | 未优化:合计230–250GB;优化后:182–200GB | 需多卡/数据中心级 GPU |
| Llama 3.1 70B(4bit 量化) | 推理,单卡 A100 80GB | 模型权重约40GB(VRAM);系统内存约40GB(加载阶段缓存,运行期主要由 GPU 承载) | 实测并发时 GPU 显存稳定在约42GB |
| Llama 3 8B(CPU-only) | 仅 CPU 推理 | 至少16GB 内存;建议32GB更稳 | 速度显著慢于 GPU |
CPU 与 GPU 利用率特点
在 Linux 上的快速自测与监控
降低资源占用的实用做法