混合精度训练对硬件有何要求 - GPU

混合精度训练的硬件要求与选型要点
一、核心硬件要求

GPU 与计算能力：需要支持 Tensor Cores 的 NVIDIA GPU，计算能力（Compute Capability）≥ 7.0 才能在计算密集型算子（如 GEMM、卷积）上获得显著的混合精度加速；典型型号包括 V100、RTX 系列、A100、H100。旧款 GPU（如 P100，计算能力 6.0）通常难以获得计算加速，但仍可节省部分显存与带宽。TPU 侧则原生支持 bfloat16 混合精度。若需在 CPU 或旧 GPU 上运行，可用于调试，但速度往往明显下降。
显存容量与模型规模匹配：混合精度将主要张量从 FP32（4 字节） 降为 FP16/BF16（2 字节），显存占用通常可接近减半，从而支持更大的 Batch Size 或更深的网络。以 LLaMA-7B 为例，纯 FP32 训练时仅参数就需约 28GB，加上梯度与中间激活往往超过 96GB，单卡（如 24GB 显存）无法承载；改用混合精度后，显存压力显著下降，训练可行性明显提升。
互连与分布式训练：多卡/多机训练时，建议使用 NVLink / NVSwitch（NVIDIA 多卡）或 InfiniBand（跨节点）以降低梯度同步开销；大规模作业还需高速存储与足够的主机内存来支撑数据加载、检查点与日志。例如，万亿 Token 级训练常见配置为 16×A100（40GB）约 2–3 个月 或 32×A100 约 1 个月，并配合 NVLink/InfiniBand 与高速存储/内存资源。

二、不同规模任务的典型硬件配置建议

任务/模型规模	推荐 GPU 与显存	互连与主机配置要点
7B/8B	单卡 RTX 3090/4090（24GB）；或 A5000/A6000（24–48GB）	多卡可选 NVLink；CPU 16–32GB 起；NVMe SSD ≥1TB
70B 微调	A100（40GB/80GB）或 H100；至少 8×40GB 或 4×80GB	建议 NVLink；主机 RAM ≥256GB；NVMe SSD ≥8TB；多节点用 10Gbps+ 网络
1 万亿 Token 级训练	16×A100（40GB）或 32×A100	使用 NVLink/InfiniBand；主机 RAM ≥256GB；数据集 10–20TB、检查点 ≈2TB+

上述配置为常见可行方案，具体还需结合模型实现、并行策略与吞吐目标微调。
三、软件与驱动栈要求

驱动、CUDA 与框架：需安装与 GPU 匹配的 NVIDIA 驱动、CUDA、cuDNN，并选择支持混合精度的框架版本（如 PyTorch ≥1.6 的 AMP、TensorFlow 2.x 的 mixed_precision）。操作系统与 Python 版本以稳定兼容为主（如 Ubuntu 18.04+、Python 3.7+）。
数值稳定与加速策略：在使用 FP16 时，建议启用 动态损失缩放（Dynamic Loss Scaling） 与 FP32 主权重 以兼顾速度与收敛稳定性；在 TF/Keras 中可通过设置全局 mixed_float16 策略快速启用混合精度。

四、快速自检清单