update setup.py

a5b27465 · tangwei · ebd1d64f · a5b27465 · a5b27465 · ebd1d64f
5 changed file
--- a/fleetrec/core/factory.py
+++ b/fleetrec/core/factory.py
@@ -32,7 +32,10 @@ class TrainerFactory(object):
    def _build_trainer(config, yaml_path):
        print(envs.pretty_print_envs(envs.get_global_envs()))
-        train_mode = envs.get_runtime_envion("train.trainer")
+        train_mode = envs.get_global_env("train.strategy.mode")
+        if train_mode is not None:
+            train_mode = envs.get_runtime_envion("train.trainer")
        if train_mode == "SingleTraining":
            trainer = SingleTrainer(yaml_path)

--- a/fleetrec/core/trainers/cluster_trainer.py
+++ b/fleetrec/core/trainers/cluster_trainer.py
@@ -44,6 +44,12 @@ class ClusterTrainer(TranspileTrainer):
    def build_strategy(self):
        mode = envs.get_global_env("train.strategy.mode")
+        if mode is None:
+            mode = envs.get_runtime_envion("train.strategy.mode")
+        assert mode is not None
        strategy = None
        if mode == "async":

--- a/fleetrec/examples/build_in/cluster_training_local.yaml
+++ b/fleetrec/examples/build_in/cluster_training_local.yaml
-trainer:  "LocalClusterTraining"
-pserver_num: 2
-trainer_num: 2
-start_port: 36001
-log_dirname: "logs"
-strategy:
-  mode: "async"
--- a/fleetrec/examples/build_in/ctr-dnn_train.yaml
+++ b/fleetrec/examples/build_in/ctr-dnn_train.yaml
@@ -15,7 +15,6 @@
 train:
  threads: 12
  epochs: 10
-  trainer:  "single_training.yaml"
  reader:
    mode: "dataset"

--- a/fleetrec/run.py
+++ b/fleetrec/run.py
@@ -60,6 +60,7 @@ if __name__ == "__main__":
        cluster_envs["start_port"] = 36001
        cluster_envs["log_dir"] = "logs"
        cluster_envs["train.trainer"] = "ClusterTraining"
+        cluster_envs["train.strategy.mode"] = "async"
        local_cluster_engine(cluster_envs, args.model)
    elif args.engine == "LocalMPI":