Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • models
  • Issue
  • #2382

M
models
  • 项目概览

PaddlePaddle / models
大约 2 年 前同步成功

通知 232
Star 6828
Fork 2962
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 602
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 255
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
M
models
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 602
    • Issue 602
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 255
    • 合并请求 255
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 6月 10, 2019 by saxon_zh@saxon_zhGuest

resnet\SEnet 训练出现loss Nan

Created by: ellinyang

版本、环境信息 1)docker镜像 paddle:1.4.1-gpu-cuda9.0-cudnn7 2)GPU Tesla V100 (16G显存) 训练信息 1)单机单卡训练 2)batchsize=16 3)图像resize448x448 (原图48*70) 4)自定义数据集 8000样本,5大类 出现问题: resnet 和SEnet 在训练自己的数据集时,正常训练几个batch便出现loss Nan ,acc变0。

详细细节

-------------  Configuration Arguments -------------
               batch_size : 16
               checkpoint : None
                class_dim : 6
                 data_dir : dataset
                enable_ce : False
                     fp16 : False
              image_shape : 3,448,448
                 l2_decay : 0.00012
                       lr : 0.01
              lr_strategy : cosine_decay
                    model : SE_ResNeXt50_32x4d
           model_save_dir : train_SE_ResNeXt50_32x4d_0610/export_models
            momentum_rate : 0.9
               num_epochs : 80
         pretrained_model : SE_ResNeXt50_32x4d_pretrained
               scale_loss : 1.0
             total_images : 8557
                  use_gpu : True
             with_mem_opt : 1
----------------------------------------------------
Pass 0, trainbatch 0, loss 1.49129,                         acc1 0.00000, acc5 0.62500, lr 0.01000, time 6.36 sec
Pass 0, trainbatch 10, loss 1.78435,                         acc1 0.31250, acc5 0.75000, lr 0.01000, time 0.59 sec
Pass 0, trainbatch 20, loss 1.04638,                         acc1 0.50000, acc5 0.87500, lr 0.01000, time 0.61 sec
Pass 0, trainbatch 30, loss 0.79907,                         acc1 0.43750, acc5 0.87500, lr 0.01000, time 0.60 sec
Pass 0, trainbatch 40, loss 1.52700,                         acc1 0.43750, acc5 0.93750, lr 0.01000, time 0.63 sec
Pass 0, trainbatch 50, loss 1.00796,                         acc1 0.56250, acc5 0.87500, lr 0.01000, time 0.64 sec
Pass 0, trainbatch 60, loss 0.65415,                         acc1 0.50000, acc5 0.81250, lr 0.01000, time 0.60 sec
Pass 0, trainbatch 70, loss 0.67213,                         acc1 0.56250, acc5 0.87500, lr 0.01000, time 0.60 sec
Pass 0, trainbatch 80, loss 1.23143,                         acc1 0.25000, acc5 0.68750, lr 0.01000, time 0.60 sec
Pass 0, trainbatch 90, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.65 sec
Pass 0, trainbatch 100, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.64 sec
Pass 0, trainbatch 110, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.65 sec
Pass 0, trainbatch 120, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.63 sec
Pass 0, trainbatch 130, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.64 sec
Pass 0, trainbatch 140, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.65 sec
Pass 0, trainbatch 150, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.64 sec
Pass 0, trainbatch 160, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.63 sec
Pass 0, trainbatch 170, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.64 sec
Pass 0, trainbatch 180, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.63 sec
Pass 0, trainbatch 190, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.65 sec
Pass 0, trainbatch 200, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.71 sec
Pass 0, trainbatch 210, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.66 sec
Pass 0, trainbatch 220, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.63 sec
Pass 0, trainbatch 230, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.64 sec
Pass 0, trainbatch 240, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.66 sec
Pass 0, trainbatch 250, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.64 sec
Pass 0, trainbatch 260, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.63 sec
Pass 0, trainbatch 270, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.63 sec
Pass 0, trainbatch 280, loss nan,                         acc1 0.00000, acc5 0.00000, lr 0.01000, time 0.65 sec
指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/models#2382
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7