Merge pull request #220 from vslyu/fix_save_step

fix save step bug

Merge pull request #220 from vslyu/fix_save_step
fix save step bug
777be5a0 · wuzhihua · GitHub · 1671a378 · 8e5db1cb · 777be5a0
显示空白变更内容
内联并排

Showing with 8 addition and 12 deletion

core/trainers/framework/runner.py core/trainers/framework/runner.py +4 -6

models/rank/dnn/config.yaml models/rank/dnn/config.yaml +4 -6

未找到文件。
--- a/core/trainers/framework/runner.py
+++ b/core/trainers/framework/runner.py
@@ -209,12 +209,10 @@ class RunnerBase(object):
                    if save_step_interval >= 1 and batch_id % save_step_interval == 0 and context[
                            "is_infer"] == False:
-                        if context["fleet_mode"]:
                        if context["fleet_mode"].upper() == "PS":
-                                train_prog = context["model"][model_dict[
+                            train_prog = context["model"][model_dict["name"]][
-                                    "name"]]["main_program"]
+                                "main_program"]
-                        elif not context["is_fleet"] or context[
+                        else:
-                                "fleet_mode"].upper() == "COLLECTIVE":
                            train_prog = context["model"][model_dict["name"]][
                                "default_main_program"]
                        startup_prog = context["model"][model_dict["name"]][

--- a/models/rank/dnn/config.yaml
+++ b/models/rank/dnn/config.yaml
@@ -114,15 +114,13 @@ runner:
  print_interval: 1
  phases: [phase1]
- name: local_ps_train
+- name: single_multi_gpu_train
-  class: local_cluster_train
+  class: train
  # num of epochs
  epochs: 1
  # device to run training or infer
-  device: cpu
+  device: gpu
-  selected_gpus: "0" # 选择多卡执行训练
+  selected_gpus: "0,1" # 选择多卡执行训练
-  work_num: 1
-  server_num: 1
  save_checkpoint_interval: 1 # save model interval of epochs
  save_inference_interval: 4 # save inference
  save_step_interval: 1