训练过程中出现PaddleCheckError: Expected predict_data <= 1, but received predict_data:nan > 1:1 (#24343) · Issue · PaddlePaddle / Paddle

训练过程中出现PaddleCheckError: Expected predict_data <= 1, but received predict_data:nan > 1:1

Created by: Rayarrow94

如果您没有查询到相似问题，为快速解决您的提问，建立issue时请提供如下细节信息：

标题：简洁、精准概括您的问题，例如“Insufficient Memory xxx" ”
版本、环境信息： 1）PaddlePaddle版本：请提供您的PaddlePaddle版本号，例如1.1或CommitID 2）CPU：预测若用CPU，请提供CPU型号，MKL/OpenBlas/MKLDNN/等数学库使用情况 3）GPU：预测若用GPU，请提供GPU型号、CUDA和CUDNN版本号 4）系统环境：请您描述系统类型、版本，例如Mac OS 10.14，Python版本
训练信息 1）单机/多机，单卡/多卡 2）显存信息 3）Operator信息
复现信息：如为报错，请给出复现环境、复现步骤
问题描述：请详细描述您的问题，同步贴出报错信息、日志、可复现的代码片段

版本信息：fluid 1.6.0-gpu，单机多卡问题描述：训练过程中出现nan（大概在训练几百或者一千个batch之后出现，然后退出）有查询到类似的issue，但是目前还没有解决问题，想问下有没有办法可以在出错的时候跳过这个batch的数据继续训练

Python Call Stacks (More useful to users):

File "/home/disk2/a/anaconda3/lib/python3.6/site-packages/paddle/fluid/framework.py", line 2426, in append_op attrs=kwargs.get("attrs", None)) File "/home/disk2/a/anaconda3/lib/python3.6/site-packages/paddle/fluid/layer_helper.py", line 43, in append_op return self.main_program.current_block().append_op(*args, **kwargs) File "/home/disk2/a/anaconda3/lib/python3.6/site-packages/paddle/fluid/layers/metric_op.py", line 217, in auc "StatNegOut": [batch_stat_neg] File "/home/disk2/a/model/fluid/item2vec/train.py", line 265, in model auc_var, cur_auc_var, auc_states = fluid.layers.auc(input=fluid.layers.sigmoid(logit),label=label,num_thresholds=2 ** 12) File "/home/disk2/a/model/fluid/item2vec/train.py", line 396, in train data_list, py_reader, avg_cost, auc_var = model() File "local_train.py", line 16, in use_parallel_executor=1

Error Message Summary:

PaddleCheckError: Expected predict_data <= 1, but received predict_data:nan > 1:1. The predict data must less or equal 1. at [/paddle/paddle/fluid/operators/metrics/auc_op.h:83] [operator < auc > error]

PaddlePaddle / Paddle 1 年多 前同步成功

训练过程中出现PaddleCheckError: Expected predict_data <= 1, but received predict_data:nan > 1:1

Python Call Stacks (More useful to users):

Error Message Summary:

PaddlePaddle / Paddle
1 年多前同步成功