【论文复习】加载训练好的模型训练几个step出现网络参数一直为nan的情况 (#27038) · Issue · PaddlePaddle / Paddle

【论文复习】加载训练好的模型训练几个step出现网络参数一直为nan的情况

Created by: Qdriving

为使您的问题得到快速解决，在建立Issues前，请您先通过如下方式搜索是否有相似问题:【搜索issue关键字】【使用labels筛选】【官方文档】

如果您没有查询到相似问题，为快速解决您的提问，建立issue时请提供如下细节信息：

标题：简洁、精准概括您的问题，例如“Insufficient Memory xxx" ”
版本、环境信息： 1）PaddlePaddle版本：1.8.0 2）CPU：AI Studio 3）GPU：Tesla V100 16G 4）系统环境：Ubuntu 16.04.6 LTS , Python3.7 注：您可以通过执行summary_env.py获取以上信息。
训练信息 1）单卡 2）显存信息 3）Operator信息
复现信息：未报错，只是其中一个子网络参数全部变成了nan，loss变大
问题描述：之前已经将模型训练20个epoch，模型训练精度达到了0.99左右，重新加载与训练的模型后进行超参数调节训练，训练几个step后通过打印发现rep_flow_layer子网络的参数变成了nan（大多数时候会正常训练）

Thank you for contributing to PaddlePaddle. Before submitting the issue, you could search issue in the github in case that there was a similar issue submitted or resolved before. If there is no solution,please make sure that this is a training issue including the following details: System information -PaddlePaddle version （eg.1.1）or CommitID -CPU: including CPUMKL/OpenBlas/MKLDNN version -GPU: including CUDA/CUDNN version -OS Platform (eg.Mac OS 10.14) -Other imformation: Distriuted training/informantion of operator/ Graphics card storage Note: You can get most of the information by running summary_env.py. To Reproduce Steps to reproduce the behavior Describe your current behavior Code to reproduce the issue Other info / logs

PaddlePaddle / Paddle 接近 2 年 前同步成功

【论文复习】加载训练好的模型训练几个step出现网络参数一直为nan的情况

PaddlePaddle / Paddle
接近 2 年前同步成功