由于 CUDA 内核的异步特性,当针对 CUDA 代码运行时,cProfile 输出和 CPU 模式自动分级探查器可能无法显示正确的计时:报告的 CPU 时间报告了用于启动内核的时间量,但不包括时间 除非操作进行了同步,否则内核将花费在 GPU 上执行。 在常规的 CPU 模式分析器下,进行同步的操作似乎非常昂贵。 在这些时间不正确的情况下,CUDA 模式自动毕业分析器可能会有所帮助。
由于 CUDA 内核的异步特性,当针对 CUDA 代码运行时,cProfile 输出和 CPU 模式自动分级探查器可能无法显示正确的计时:报告的 CPU 时间报告了用于启动内核的时间量,但不包括时间 除非操作进行了同步,否则内核将花费在 GPU 上执行。 在常规的 CPU 模式分析器下,进行同步的操作似乎非常昂贵。 在这些时间不正确的情况下,CUDA 模式自动求导分析器可能会有所帮助。