Merge pull request #223 from littletomatodonkey/fix_single_card_dyg

fix single card dygraph train process

Merge pull request #223 from littletomatodonkey/fix_single_card_dyg
fix single card dygraph train process
0e7bea51 · littletomatodonkey · GitHub · 6f5ab4e3 · c384773f · 0e7bea51
显示空白变更内容
内联并排

Showing with 16 addition and 7 deletion

tools/program.py tools/program.py +7 -3

tools/train.py tools/train.py +9 -4

未找到文件。
--- a/tools/program.py
+++ b/tools/program.py
@@ -329,9 +329,13 @@ def run(dataloader, config, net, optimizer=None, epoch=0, mode='train'):
        feeds = create_feeds(batch, use_mix)
        fetchs = create_fetchs(feeds, net, config, mode)
        if mode == 'train':
+            if config["use_data_parallel"]:
                avg_loss = net.scale_loss(fetchs['loss'])
                avg_loss.backward()
                net.apply_collective_grads()
+            else:
+                avg_loss = fetchs['loss']
+                avg_loss.backward()
            optimizer.minimize(avg_loss)
            net.clear_gradients()

--- a/tools/train.py
+++ b/tools/train.py
@@ -52,9 +52,13 @@ def main(args):
    gpu_id = fluid.dygraph.parallel.Env().dev_id
    place = fluid.CUDAPlace(gpu_id)
+    use_data_parallel = int(os.getenv("PADDLE_TRAINERS_NUM", 1)) != 1
+    config["use_data_parallel"] = use_data_parallel
    with fluid.dygraph.guard(place):
-        strategy = fluid.dygraph.parallel.prepare_context()
        net = program.create_model(config.ARCHITECTURE, config.classes_num)
+        if config["use_data_parallel"]:
+            strategy = fluid.dygraph.parallel.prepare_context()
            net = fluid.dygraph.parallel.DataParallel(net, strategy)
        optimizer = program.create_optimizer(
@@ -79,7 +83,8 @@ def main(args):
            program.run(train_dataloader, config, net, optimizer, epoch_id,
                        'train')
-            if fluid.dygraph.parallel.Env().local_rank == 0:
+            if not config["use_data_parallel"] or fluid.dygraph.parallel.Env(
+            ).local_rank == 0:
                # 2. validate with validate dataset
                if config.validate and epoch_id % config.valid_interval == 0:
                    net.eval()