fix one card eval in multicards training

ca51b6f7 · liuyuhui · 2a41727d · ca51b6f7 · ca51b6f7
隐藏空白更改
内联并排

Showing with 52 addition and 22 deletion

tools/program.py tools/program.py +11 -7

tools/train.py tools/train.py +41 -15

未找到文件。
--- a/tools/program.py
+++ b/tools/program.py
@@ -119,7 +119,8 @@ def create_metric(out,
                  classes_num=1000,
                  use_distillation=False,
                  multilabel=False,
-                  mode="train"):
+                  mode="train",
+                  use_xpu=False):
    """
    Create measures of model accuracy, such as top1 and top5
@@ -175,11 +176,12 @@ def create_metric(out,
        fetch_list.append(ham_dist)
    # multi cards' eval
-    if mode != "train" and paddle.distributed.get_world_size() > 1:
+    if not use_xpu:
-        for idx, fetch in enumerate(fetch_list):
+        if mode != "train" and paddle.distributed.get_world_size() > 1:
-            fetch_list[idx] = paddle.distributed.all_reduce(
+            for idx, fetch in enumerate(fetch_list):
-                fetch, op=paddle.distributed.ReduceOp.
+                fetch_list[idx] = paddle.distributed.all_reduce(
-                SUM) / paddle.distributed.get_world_size()
+                    fetch, op=paddle.distributed.ReduceOp.
+                    SUM) / paddle.distributed.get_world_size()
    fetchs = OrderedDict()
    for idx, name in enumerate(metric_names):
@@ -213,6 +215,7 @@ def create_fetchs(feeds, net, config, mode="train"):
    use_mix = config.get('use_mix') and mode == 'train'
    use_distillation = config.get('use_distillation')
    multilabel = config.get('multilabel', False)
+    use_xpu = config.get("use_xpu", False)
    out = net(feeds["image"])
@@ -229,7 +232,8 @@ def create_fetchs(feeds, net, config, mode="train"):
            classes_num,
            use_distillation,
            multilabel=multilabel,
-            mode=mode)
+            mode=mode,
+            use_xpu=use_xpu)
        fetchs.update(metric)
    return fetchs

--- a/tools/train.py
+++ b/tools/train.py
@@ -109,21 +109,47 @@ def main(args):
            program.run(train_dataloader, config, dp_net, optimizer,
                        lr_scheduler, epoch_id, 'train', vdl_writer)
-            # 2. validate with validate dataset
+            if use_xpu:
-            if config.validate and epoch_id % config.valid_interval == 0:
+                if paddle.distributed.get_rank() == 0:
-                net.eval()
+                    # 2. validate with validate dataset
-                with paddle.no_grad():
+                    if config.validate and epoch_id % config.valid_interval == 0:
-                    top1_acc = program.run(valid_dataloader, config, net, None,
+                        net.eval()
-                                           None, epoch_id, 'valid', vdl_writer)
+                        top1_acc = program.run(valid_dataloader, config, net,
-                if top1_acc > best_top1_acc:
+                                               None, None, epoch_id, 'valid')
-                    best_top1_acc = top1_acc
+                        if top1_acc > best_top1_acc:
-                    best_top1_epoch = epoch_id
+                            best_top1_acc = top1_acc
-                    model_path = os.path.join(config.model_save_dir,
+                            best_top1_epoch = epoch_id
-                                              config.ARCHITECTURE["name"])
+                            if epoch_id % config.save_interval == 0:
-                    save_model(net, optimizer, model_path, "best_model")
+                                model_path = os.path.join(
-                message = "The best top1 acc {:.5f}, in epoch: {:d}".format(
+                                    config.model_save_dir,
-                    best_top1_acc, best_top1_epoch)
+                                    config.ARCHITECTURE["name"])
-                logger.info(message)
+                                save_model(net, optimizer, model_path,
+                                           "best_model")
+                        message = "The best top1 acc {:.5f}, in epoch: {:d}".format(
+                            best_top1_acc, best_top1_epoch)
+                        logger.info("{:s}".format(
+                            logger.coloring(message, "RED")))
+            else:
+                # 2. validate with validate dataset
+                if paddle.distributed.get_rank() == 0:
+                    if config.validate and epoch_id % config.valid_interval == 0:
+                        net.eval()
+                        with paddle.no_grad():
+                            top1_acc = program.run(valid_dataloader, config,
+                                                   net, None, None, epoch_id,
+                                                   'valid', vdl_writer)
+                        if top1_acc > best_top1_acc:
+                            best_top1_acc = top1_acc
+                            best_top1_epoch = epoch_id
+                            model_path = os.path.join(
+                                config.model_save_dir,
+                                config.ARCHITECTURE["name"])
+                            save_model(net, optimizer, model_path,
+                                       "best_model")
+                        message = "The best top1 acc {:.5f}, in epoch: {:d}".format(
+                            best_top1_acc, best_top1_epoch)
+                        logger.info(message)
            # 3. save the persistable model
            if epoch_id % config.save_interval == 0: