CUDA Toolkit性能如何优化 - GPU

CUDA Toolkit性能优化实战指南
一建立性能基线并识别瓶颈

使用NVIDIA Nsight Systems / Nsight Compute进行系统级与时间线分析，定位是内核计算、全局内存带宽还是CPU-GPU传输在主导耗时；Nsight Compute可深入到内核的warp级指标与瓶颈提示。
在CUDA API为异步的前提下，主机端测时必须做同步（如cudaDeviceSynchronize()或事件同步）以避免计时失真。
用合适的指标量化瓶颈：如全局内存的gld_throughput / gst_throughput、gld_efficiency / gst_efficiency，以及achieved_occupancy（占用率）指导线程块配置与寄存器/共享内存权衡。
先做“低成本”改进（合并访问、减少主机-设备往返、批处理小算子），再进入内核重构与指令级优化。

二核函数与执行配置优化

执行配置与占用率
每个线程块建议为32的整数倍，常见范围128–256线程/块；确保gridDim足够大，使每个SM上同时保持≥2个活动线程块，以提升延迟隐藏能力。
占用率不是越高越好，需结合寄存器/共享内存占用做权衡；用nvprof/Nsight Compute观察achieved_occupancy与寄存器压力，必要时通过--maxrregcount或内核重构降低寄存器使用。
内存访问模式
全局内存访问尽量做到合并访问（coalesced），保证对齐与连续访问；对二维数据按列优先或行优先统一布局以减少跨步访问。
充分利用共享内存降低全局内存压力；设计无bank conflict的访问模式（如对2D块采用合适的stride/转置）。
控制流与并行粒度
减少线程束发散（warp divergence）：将条件分支尽量按warp对齐，或将发散分支外提。
归约、扫描等模式优先使用warp级原语或协作组，减少同步与序列化。
指令与计算优化
在精度允许时使用单精度或Tensor Core友好的数据类型与布局（如NCHW/NHWC按算法与库要求选取）。
适度循环展开（unroll）与向量化，并优先调用快速数学函数（如__sinf、__expf）。

三主机与设备数据传输优化

四显存管理与OOM对策

释放中间结果、避免计算图/中间张量无谓驻留；推理阶段使用no_grad或detach()截断图。
控制缓存分配器碎片：必要时调用torch.cuda.empty_cache()；可通过环境变量如PYTORCH_CUDA_ALLOC_CONF调整回收阈值与最大分割大小。
采用梯度检查点（以计算换显存）、混合精度训练（AMP）显著降低显存占用并提升吞吐。
对超大数据或复杂依赖，考虑分批处理、显存池/复用、统一内存（Unified Memory）或内存映射等策略；注意统一内存的迁移开销与访问局部性。

五利用库与多GPU扩展