多卡训练时随机报错(nccl) (#19479) · Issue · PaddlePaddle / Paddle

多卡训练时随机报错(nccl)

Created by: daizh

版本、环境信息： 1）PaddlePaddle版本：1.5.0 2）CPU： 3）GPU：V100, 2卡, cuda9, cudnn7 4）系统环境：centos，python 3.5.3
模型信息 1）模型名称: ERNIE上层加了一些attention模型 2）使用数据集名称 : GLUE(CoLA, RTE, MRPC都会报错)
问题描述:
1. 训练过程(顺序运行) 第一步先冻住ERNIE, 只tune上层模型, 并将10轮的ckpt保存第二步将10个ckpt依次作为模型初始化参数, 不冻住任何一层放开训练3轮. 得到10个训练结果. 第三步, 重复一,二步 5次(为了得到5次平均的结果)
2. 问题不论是第一步freeze, 还是第二步放开finetune, 均有可能随机发生错误. 出错的训练和不出错的训练配置完全一样, 载入的ckpt也都是正常的, 看样子问题是随机出现的. 报错信息如下, 看样子是nccl的问题, 我也是在V100上用2个卡训练的: 报错的104行前后的代码:

    if args.do_train:
        exec_strategy = fluid.ExecutionStrategy()
        if args.use_fast_executor:
            exec_strategy.use_experimental_executor = True
        exec_strategy.num_threads = dev_count
        exec_strategy.num_iteration_per_drop_scope = args.num_iteration_per_drop_scope
        train_exe = fluid.ParallelExecutor(use_cuda=args.use_cuda,
            loss_name=graph_vars["loss"].name, exec_strategy=exec_strategy,
            main_program=train_program, num_trainers=nccl2_num_trainers,
            trainer_id=nccl2_trainer_id)     # 104行, 报错位置
        train_pyreader.decorate_tensor_provider(train_data_generator)
    else:
        train_exe = None
    test_exe = exe
    if args.do_val or args.do_test:
        if args.use_multi_gpu_test:
            test_exe = fluid.ParallelExecutor(use_cuda=args.use_cuda, main_program=test_prog,
                share_vars_from=train_exe)
    if args.do_train:
        train_pyreader.start()
        steps = 0
        if warmup_steps > 0:
            graph_vars["learning_rate"] = scheduled_lr
        ce_info = []
        time_begin = time.time()
        last_epoch = 0
        current_epoch = 0

PaddlePaddle / Paddle 大约 2 年 前同步成功

多卡训练时随机报错(nccl)

PaddlePaddle / Paddle
大约 2 年前同步成功