PaddlePaddle / PaddleDetection
大约 2 年前同步成功

代码
- 文件
- 提交
- 分支
- Tags
- 贡献者
- 分支图
- Diff
Issue 184
- 列表
- 看板
- 标记
- 里程碑
合并请求 40
Wiki 0
- Wiki
分析
- 仓库
- DevOps
项目成员
Pages

改造的训练代码hang住

Created by: Haijunlv

因业务需要，将train.py里数据迭代模式改成了for-range的方法循环迭代，即iterable=True 相应的做了一点点的代码上的适配，具体三处

place = fluid.cuda_places() exe = fluid.Executor(place[0])
inputs_def["iterable"] = True
train_loader.start() 注释
outs = exe.run(compiled_train_prog, fetch_list=train_values, feed=data)

然后发现在for循环的第129805次执行exe.run()时程序会hang住。这个问题稳定复现，但模型训练的效果是Ok的，hang住后杀掉进程重新继续训练还是会在第129804次hang住。

paddle版本是1.8.3 ppdet是release-0.4分支， commit id 21a60442。训练采用8卡v100训练coco，用的是configs/autoaugment/faster_rcnn_r50_vd_fpn_aa_3x.yml 训练启动采用单进程启动方法。