一 硬件资源
二 软件与系统
三 模型与存储
四 部署与运维能力
五 快速自检清单
| 维度 | 最低可用 | 推荐 |
|---|---|---|
| GPU/显存 | 24GB(量化版) | A100/A800/H100 80GB(FP16) |
| CPU/内存 | 主流 8 核 / ≥64GB | Xeon/EPYC ≥16 核 / ≥128GB |
| 存储 | NVMe ≥500GB | NVMe ≥1TB |
| 驱动/CUDA | 驱动 ≥535,CUDA 11.8/12.x | 与 PyTorch/cuDNN 版本匹配 |
| Python/框架 | Python 3.9–3.10,PyTorch 2.0+,Transformers 4.30+ | 加装 vLLM、bitsandbytes/AWQ/GPTQ |
| 网络 | 单机多卡 PCIe 4.0 | 多机 万兆/InfiniBand |
| 能力 | 基础推理 | 监控、限流、鉴权、自动扩缩容 |