训练过程中出现PaddleCheckError: Expected predict_data <= 1, but received predict_data:nan > 1:1
Created by: Rayarrow94
如果您没有查询到相似问题,为快速解决您的提问,建立issue时请提供如下细节信息:
- 标题:简洁、精准概括您的问题,例如“Insufficient Memory xxx" ”
- 版本、环境信息: 1)PaddlePaddle版本:请提供您的PaddlePaddle版本号,例如1.1或CommitID 2)CPU:预测若用CPU,请提供CPU型号,MKL/OpenBlas/MKLDNN/等数学库使用情况 3)GPU:预测若用GPU,请提供GPU型号、CUDA和CUDNN版本号 4)系统环境:请您描述系统类型、版本,例如Mac OS 10.14,Python版本
- 训练信息 1)单机/多机,单卡/多卡 2)显存信息 3)Operator信息
- 复现信息:如为报错,请给出复现环境、复现步骤
- 问题描述:请详细描述您的问题,同步贴出报错信息、日志、可复现的代码片段
版本信息:fluid 1.6.0-gpu,单机多卡 问题描述:训练过程中出现nan(大概在训练几百或者一千个batch之后出现,然后退出) 有查询到类似的issue,但是目前还没有解决问题,想问下有没有办法可以在出错的时候跳过这个batch的数据继续训练
Python Call Stacks (More useful to users):
File "/home/disk2/a/anaconda3/lib/python3.6/site-packages/paddle/fluid/framework.py", line 2426, in append_op attrs=kwargs.get("attrs", None)) File "/home/disk2/a/anaconda3/lib/python3.6/site-packages/paddle/fluid/layer_helper.py", line 43, in append_op return self.main_program.current_block().append_op(*args, **kwargs) File "/home/disk2/a/anaconda3/lib/python3.6/site-packages/paddle/fluid/layers/metric_op.py", line 217, in auc "StatNegOut": [batch_stat_neg] File "/home/disk2/a/model/fluid/item2vec/train.py", line 265, in model auc_var, cur_auc_var, auc_states = fluid.layers.auc(input=fluid.layers.sigmoid(logit),label=label,num_thresholds=2 ** 12) File "/home/disk2/a/model/fluid/item2vec/train.py", line 396, in train data_list, py_reader, avg_cost, auc_var = model() File "local_train.py", line 16, in use_parallel_executor=1
Error Message Summary:
PaddleCheckError: Expected predict_data <= 1, but received predict_data:nan > 1:1. The predict data must less or equal 1. at [/paddle/paddle/fluid/operators/metrics/auc_op.h:83] [operator < auc > error]