CUDA Toolkit如何调试程序 - GPU

CUDA Toolkit调试程序实战指南
一快速入门流程

编译出可调试版本：使用 nvcc -g -G -O0 生成主机与设备的调试信息，并关闭优化以避免行号与执行流错乱。示例：nvcc -g -G -O0 -o app app.cu。其中 -g 为主机调试信息，-G 为设备端（核函数）调试信息，-O0 关闭优化。运行核函数后建议加 cudaDeviceSynchronize() 或使用流同步，确保错误与输出及时显现。
使用 cuda-gdb 进行交互式调试：启动 cuda-gdb ./app，常用命令包括 break 行号/函数名、run、next、step、print 变量、cuda thread（切换线程焦点）、info cuda threads（查看线程）等，可设置断点、单步、查看寄存器和变量，定位核函数中的问题。
在核函数内快速打印：可直接在设备代码中使用 printf，便于观察特定线程的中间结果；注意输出受缓冲与同步影响，避免大量打印影响性能与可读性。
使用运行时错误检查辅助定位：在每次 CUDA API 调用后检查返回值，或调用 cudaGetLastError()/cudaPeekAtLastError() 获取最近一次错误；配合 cudaGetErrorName()/cudaGetErrorString() 输出可读错误信息，快速缩小问题范围。

二功能正确性验证与内存错误检查

使用 Compute Sanitizer 替代已弃用的 cuda-memcheck（自 CUDA 11.6 起弃用，CUDA 12.0 起移除），覆盖更完整的功能正确性检查：
memcheck：检测越界、未对齐访问与内存泄漏；
racecheck：检测共享内存数据竞争；
initcheck：检测对未初始化设备全局内存的访问；
synccheck：检测线程同步隐患。

基本用法：compute-sanitizer [options] ./app [app_options]。为获得更清晰堆栈与行号信息，编译时建议加入 -lineinfo 并保留符号信息。
三性能分析与瓶颈定位

使用 NVIDIA Nsight Systems 进行系统级时间线分析，观察 CPU/GPU 重叠、内核耗时、内存拷贝与 API 调用开销，定位整体瓶颈。
使用 NVIDIA Nsight Compute 进行内核级细粒度分析（硬件计数器、指令级瓶颈、warp 占用等），指导内存访问模式与指令优化。
如需使用旧版命令行分析器，可用 nvprof（已不推荐），并可通过在代码段前后插入 cudaProfilerStart()/cudaProfilerStop() 聚焦分析区间。

四常见陷阱与实用建议

编译选项要点：调试阶段务必使用 -g -G；发布阶段再恢复优化。若需更友好的错误定位，加入 -lineinfo 以在工具输出中显示文件名与行号。
同步与输出可见性：核函数中的 printf 缓冲有限，需依赖 cudaDeviceSynchronize/cudaStreamSynchronize/cudaMemcpy 等同步点刷新；大量打印会显著影响性能与可读性。
线程聚焦与发散：调试时利用 cuda thread 等命令聚焦到出错的 block/thread；注意 warp 的 lockstep 执行特性，避免同一 warp 内大量分支发散导致性能骤降。
远程与 IDE 场景：在 VS Code 中可结合 CUDA-GDB 进行本地或远程调试；远程调试需确保目标机安装 CUDA-GDB 与 CUDA-GDBServer，并在插件中配置应用路径、源码路径与 GPU 设备。