polish(nyz): fix repeat eval at beginning

414b5305 · niuyazhe · f962ef01 · 414b5305 · 414b5305 · 414b5305
4 changed file
--- a/ding/worker/collector/base_serial_evaluator.py
+++ b/ding/worker/collector/base_serial_evaluator.py
@@ -155,6 +155,8 @@ class BaseSerialEvaluator(object):
            Determine whether you need to start the evaluation mode, if the number of training has reached\
                the maximum number of times to start the evaluator, return True
        """
+        if train_iter == self._last_eval_iter:
+            return False
        if (train_iter - self._last_eval_iter) < self._cfg.eval_freq and train_iter != 0:
            return False
        self._last_eval_iter = train_iter

--- a/dizoo/classic_control/bitflip/entry/bitflip_dqn_main.py
+++ b/dizoo/classic_control/bitflip/entry/bitflip_dqn_main.py
@@ -83,7 +83,8 @@ def main(cfg, seed=0, max_iterations=int(1e8)):
            else:
                sample_size = learner.policy.get_attribute('batch_size')
            train_episode = replay_buffer.sample(sample_size, learner.train_iter)
-            if train_episode is not None:
+            if train_episode is None:
+                break
            train_data = []
            if her_cfg is not None:
                her_episodes = []

--- a/dizoo/classic_control/cartpole/entry/cartpole_dqn_main.py
+++ b/dizoo/classic_control/cartpole/entry/cartpole_dqn_main.py
@@ -71,7 +71,8 @@ def main(cfg, seed=0):
        # Training
        for i in range(cfg.policy.learn.update_per_collect):
            train_data = replay_buffer.sample(learner.policy.get_attribute('batch_size'), learner.train_iter)
-            if train_data is not None:
+            if train_data is None:
+                break
            learner.train(train_data, collector.envstep)



--- a/dizoo/classic_control/pendulum/entry/pendulum_td3_main.py
+++ b/dizoo/classic_control/pendulum/entry/pendulum_td3_main.py
@@ -63,10 +63,11 @@ def main(cfg, seed=0):
        # Collect data from environments
        new_data = collector.collect(train_iter=learner.train_iter)
        replay_buffer.push(new_data, cur_collector_envstep=collector.envstep)
-        # Trian
+        # Train
        for i in range(cfg.policy.learn.update_per_collect):
            train_data = replay_buffer.sample(learner.policy.get_attribute('batch_size'), learner.train_iter)
-            if train_data is not None:
+            if train_data is None:
+                break
            learner.train(train_data, collector.envstep)