多进程训练时内存占用过高导致训练程序崩溃
Created by: Yogurt2019
使用近期更新的models/PaddleCV/image_classification中的多进程训练进行训练时,在validate过程中会出现内存迅速占满128G导致程序崩溃问题,之前在训练的时候就已经占很高了,我的训练环境及参数是: 自己的数据34万张图 batchsize 120 3张tesla v100 128G内存 py_reader的容量为4 reader_thread为6 reader_bufsize为1024 train_num为3 请问应该如何调整参数,以使训练时内存占用不会过大?