【论文复习】加载训练好的模型训练几个step出现网络参数一直为nan的情况
开放中
【论文复习】加载训练好的模型训练几个step出现网络参数一直为nan的情况
Created by: Qdriving
为使您的问题得到快速解决,在建立Issues前,请您先通过如下方式搜索是否有相似问题:【搜索issue关键字】【使用labels筛选】【官方文档】
如果您没有查询到相似问题,为快速解决您的提问,建立issue时请提供如下细节信息:
- 标题:简洁、精准概括您的问题,例如“Insufficient Memory xxx" ”
- 版本、环境信息: 1)PaddlePaddle版本:1.8.0 2)CPU:AI Studio 3)GPU:Tesla V100 16G 4)系统环境:Ubuntu 16.04.6 LTS , Python3.7 注:您可以通过执行summary_env.py获取以上信息。
- 训练信息 1)单卡 2)显存信息 3)Operator信息
- 复现信息:未报错,只是其中一个子网络参数全部变成了nan,loss变大
- 问题描述: 之前已经将模型训练20个epoch,模型训练精度达到了0.99左右,重新加载与训练的模型后进行超参数调节训练,训练几个step后通过打印发现rep_flow_layer子网络的参数变成了nan(大多数时候会正常训练)
Thank you for contributing to PaddlePaddle. Before submitting the issue, you could search issue in the github in case that there was a similar issue submitted or resolved before. If there is no solution,please make sure that this is a training issue including the following details: System information -PaddlePaddle version (eg.1.1)or CommitID -CPU: including CPUMKL/OpenBlas/MKLDNN version -GPU: including CUDA/CUDNN version -OS Platform (eg.Mac OS 10.14) -Other imformation: Distriuted training/informantion of operator/ Graphics card storage Note: You can get most of the information by running summary_env.py. To Reproduce Steps to reproduce the behavior Describe your current behavior Code to reproduce the issue Other info / logs