Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • Issue
  • #23765

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
大约 2 年 前同步成功

通知 2325
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 4月 12, 2020 by saxon_zh@saxon_zhGuest

1.7.1版本,Bert fine-tuning编译期会卡十分钟

Created by: mapingshuo

背景

- PaddlePaddle版本:1.7.1,CommitID: 2a792de7c263fa038ba3e29285e4d9d7e86ab6ca
- GPU V100、CUDA9, CUDNN7.3
- 编译环境: 裸机编译
- 单机,多卡训练, 显存信息: 32GB

描述

在使用BERT库 执行fine-tuning训练时,遇到编译期卡住的情况。开启“export GLOG_v=15”, 发现卡在下面这一行长达十分钟:

I0412 11:43:24.269901  5808 op_desc.cc:673] begin to check attribute of elementwise_mul
I0412 11:43:24.269930  5808 op_desc.cc:679] CompileTime infer shape on elementwise_mul
I0412 11:43:24.269943  5808 op_desc.cc:695]  From [sent_embedding@GRAD, elementwise_div_0, ] to [elementwise_mul_391, ]
I0412 11:43:24.270349  5808 op_desc.cc:673] begin to check attribute of elementwise_mul
I0412 11:43:24.270378  5808 op_desc.cc:679] CompileTime infer shape on elementwise_mul
I0412 11:43:24.270391  5808 op_desc.cc:695]  From [word_embedding@GRAD, elementwise_div_0, ] to [elementwise_mul_392, ]```

复现方式

安装上述版本paddle,clone 上述BERT库后,开启“export GLOG_v=15”,执行以下命令即可复现:

export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1

TASK_NAME='XNLI'

# customize your own path
BERT_BASE_PATH="uncased_L-24_H-1024_A-16"
DATA_PATH=xnli
CKPT_PATH=./checkpoints

python -u run_classifier.py --task_name ${TASK_NAME} \
                   --use_cuda true \
                   --do_train true \
                   --do_val true \
                   --do_test true \
                   --batch_size 8192 \
                   --in_tokens true \
                   --init_pretraining_params ${BERT_BASE_PATH}/params \
                   --data_dir ${DATA_PATH} \
                   --vocab_path ${BERT_BASE_PATH}/vocab.txt \
                   --checkpoints ${CKPT_PATH} \
                   --save_steps 1000 \
                   --weight_decay  0.01 \
                   --warmup_proportion 0.0 \
                   --validation_steps 25 \
                   --epoch 3 \
                   --max_seq_len 512 \
                   --bert_config_path ${BERT_BASE_PATH}/bert_config.json \
                   --learning_rate 1e-4 \
                   --skip_steps 10 \
                   --random_seed 1

最新develop也有同样问题,期待高优解决。

指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/Paddle#23765
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7