Created by: luotao1
PR types
Bug fixes
PR changes
Others
Describe
复现和分析test_profiler.py
随机挂。
- 从https://github.com/PaddlePaddle/Paddle/pull/25172#issuecomment-648237701 错误看,是出在NCCL初始化上,说明多卡初始化时出现问题。因此需要使用
RUN_TYPE=DIST
占两卡跑单测。 - 为了节省总体时间,将
test_profiler.py
测试PE的部分单独拆开为test_parallel_executor_profiler.py
。原来的test_profiler.py
单测还是并行跑,仅test_parallel_executor_profiler.py
占两卡。
目前,本PR能:
- 100%复现出
test_parallel_executor_profiler.py
的随机挂错误。见https://github.com/PaddlePaddle/Paddle/pull/25200#issuecomment-650483092 - 错误有两处:
- 1)Profiler工具在多线程PE下存在Bug
- 2)NCCL Kernel不应该在Profiler的Event中
- 由于这两处错误比较复杂,需要一定时间继续分析和调试,已经加了TODO。同时,这两处错误会在Profiler下一次的功能计划中完善。