内存需求速览
| 模型与量化 | 参数规模 | 近似权重体积 | CPU-only 可用内存下限 | GPU 加速建议 |
|---|---|---|---|---|
| 8B Q4_K_M | 8B | ≈4.9GB | ≥16GB(更流畅建议 32GB) | 具备 ≥8GB VRAM 的 NVIDIA GPU 可显著加速 |
| 8B Q2_K | 8B | ≈3.2GB | ≥8–12GB 可用内存即可运行 | 同上 |
| 70B Q4_K_M | 70B | >20GB | ≥64GB(推荐 128GB 或更高) | 建议使用高端 GPU 与充足 VRAM |
如何估算你的内存是否够用
部署与配置建议
ollama run llama3(默认 8B),或 ollama run llama3:70b(70B)。若内存紧张,可优先选择 8B 或更低比特量化版本。--n_ctx 2048)以限制内存占用。示例命令:python -m llama_cpp.server --host 0.0.0.0 --model ./Meta-Llama-3-8B-Instruct.Q4_K_M.gguf --n_ctx 2048。