Merge pull request #6877 from LDOUBLEV/dyg_pts

[tipc]fix fp16 benchmark train

Merge pull request #6877 from LDOUBLEV/dyg_pts
[tipc]fix fp16 benchmark train
4bb366cc · Double_V · GitHub · 2d722451 · 1d749987 · 4bb366cc
隐藏空白更改
内联并排

Showing with 14 addition and 8 deletion

test_tipc/benchmark_train.sh test_tipc/benchmark_train.sh +10 -4

test_tipc/test_train_inference_python.sh test_tipc/test_train_inference_python.sh +4 -4

未找到文件。
--- a/test_tipc/benchmark_train.sh
+++ b/test_tipc/benchmark_train.sh
@@ -139,8 +139,8 @@ else
    device_num=${params_list[4]}
    IFS=";"

-    if [ ${precision} = "null" ];then
-        precision="fp32"
+    if [ ${precision} = "fp16" ];then
+        precision="amp"
    fi

    fp_items_list=($precision)
@@ -150,10 +150,16 @@ fi

 IFS="|"
 for batch_size in ${batch_size_list[*]}; do 
-    for precision in ${fp_items_list[*]}; do
+    for train_precision in ${fp_items_list[*]}; do
        for device_num in ${device_num_list[*]}; do
            # sed batchsize and precision
-            func_sed_params "$FILENAME" "${line_precision}" "$precision"
+            if [ ${train_precision} = "amp" ];then
+                precision="fp16"
+            else
+                precision="fp32"
+            fi
+
+            func_sed_params "$FILENAME" "${line_precision}" "$train_precision"
            func_sed_params "$FILENAME" "${line_batchsize}" "$MODE=$batch_size"
            func_sed_params "$FILENAME" "${line_epoch}" "$MODE=$epoch"
            gpu_id=$(set_gpu_id $device_num)

--- a/test_tipc/test_train_inference_python.sh
+++ b/test_tipc/test_train_inference_python.sh
@@ -265,7 +265,7 @@ else
                if [ ${run_train} = "null" ]; then
                    continue
                fi
-                set_autocast=$(func_set_params "${autocast_key}" "${autocast}")
+
                set_epoch=$(func_set_params "${epoch_key}" "${epoch_num}")
                set_pretrain=$(func_set_params "${pretrain_model_key}" "${pretrain_model_value}")
                set_batchsize=$(func_set_params "${train_batch_key}" "${train_batch_value}")
@@ -287,11 +287,11 @@ else

                set_save_model=$(func_set_params "${save_model_key}" "${save_log}")
                if [ ${#gpu} -le 2 ];then  # train with cpu or single gpu
-                    cmd="${python} ${run_train} ${set_use_gpu}  ${set_save_model} ${set_epoch} ${set_pretrain} ${set_autocast} ${set_batchsize} ${set_train_params1} ${set_amp_config} "
+                    cmd="${python} ${run_train} ${set_use_gpu}  ${set_save_model} ${set_epoch} ${set_pretrain}  ${set_batchsize} ${set_train_params1} ${set_amp_config} "
                elif [ ${#ips} -le 15 ];then  # train with multi-gpu
-                    cmd="${python} -m paddle.distributed.launch --gpus=${gpu} ${run_train} ${set_use_gpu} ${set_save_model} ${set_epoch} ${set_pretrain} ${set_autocast} ${set_batchsize} ${set_train_params1} ${set_amp_config}"
+                    cmd="${python} -m paddle.distributed.launch --gpus=${gpu} ${run_train} ${set_use_gpu} ${set_save_model} ${set_epoch} ${set_pretrain}  ${set_batchsize} ${set_train_params1} ${set_amp_config}"
                else     # train with multi-machine
-                    cmd="${python} -m paddle.distributed.launch --ips=${ips} --gpus=${gpu} ${run_train} ${set_use_gpu} ${set_save_model} ${set_pretrain} ${set_epoch} ${set_autocast} ${set_batchsize} ${set_train_params1} ${set_amp_config}"
+                    cmd="${python} -m paddle.distributed.launch --ips=${ips} --gpus=${gpu} ${run_train} ${set_use_gpu} ${set_save_model} ${set_pretrain} ${set_epoch}  ${set_batchsize} ${set_train_params1} ${set_amp_config}"
                fi
                # run train
                eval $cmd