fix multi-cards multi-process bug (#4251)

* fix multi-card multi-process bug

fix multi-cards multi-process bug (#4251)
* fix multi-card multi-process bug
1fbb0875 · ruri · GitHub · 6345e607 · 1fbb0875 · 1fbb0875
Showing with 12 addition and 9 deletion

PaddleCV/image_classification/train.py PaddleCV/image_classification/train.py +10 -7

PaddleCV/image_classification/utils/dist_utils.py PaddleCV/image_classification/utils/dist_utils.py +2 -2

未找到文件。
--- a/PaddleCV/image_classification/train.py
+++ b/PaddleCV/image_classification/train.py
@@ -102,6 +102,9 @@ def validate(args,
    test_batch_time_record = []
    test_batch_metrics_record = []
    test_batch_id = 0
+    if int(os.environ.get('PADDLE_TRAINERS_NUM', 1)) > 1:
+        compiled_program = test_prog
+    else:
        compiled_program = best_strategy_compiled(
            args,
            test_prog,

--- a/PaddleCV/image_classification/utils/dist_utils.py
+++ b/PaddleCV/image_classification/utils/dist_utils.py
@@ -85,8 +85,8 @@ def prepare_for_multi_process(exe, build_strategy, train_prog):
    trainer_id = int(os.environ.get('PADDLE_TRAINER_ID', 0))
    num_trainers = int(os.environ.get('PADDLE_TRAINERS_NUM', 1))
    if num_trainers < 2: return
-    logger.info("PADDLE_TRAINERS_NUM", num_trainers)
+    logger.info("PADDLE_TRAINERS_NUM %s" % num_trainers)
-    logger.info("PADDLE_TRAINER_ID", trainer_id)
+    logger.info("PADDLE_TRAINER_ID %s" % trainer_id)
    build_strategy.num_trainers = num_trainers
    build_strategy.trainer_id = trainer_id
    # NOTE(zcd): use multi processes to train the model,