改造的训练代码hang住
Created by: Haijunlv
因业务需要,将train.py里数据迭代模式改成了for-range的方法循环迭代, 即iterable=True 相应的做了一点点的代码上的适配,具体三处
- place = fluid.cuda_places() exe = fluid.Executor(place[0])
- inputs_def["iterable"] = True
- train_loader.start() 注释
- outs = exe.run(compiled_train_prog, fetch_list=train_values, feed=data)
然后发现在for循环的第129805次执行exe.run()时程序会hang住。 这个问题稳定复现, 但模型训练的效果是Ok的,hang住后杀掉进程重新继续训练还是会在第129804次hang住。
paddle版本是1.8.3 ppdet是release-0.4分支, commit id 21a60442。 训练采用8卡v100训练coco,用的是configs/autoaugment/faster_rcnn_r50_vd_fpn_aa_3x.yml 训练启动采用单进程启动方法。