Merge pull request #1202 from TomorrowIsAnOtherDay/develop

【DeepQNetwork】Compatible with python3 is supported

Merge pull request #1202 from TomorrowIsAnOtherDay/develop
【DeepQNetwork】Compatible with python3 is supported
43660e78 · Qiyang Min · GitHub · 34db009c · ef687124 · 43660e78
5 changed file
--- a/fluid/DeepQNetwork/DQN_agent.py
+++ b/fluid/DeepQNetwork/DQN_agent.py
@@ -135,10 +135,10 @@ class DQNModel(object):
    def _build_sync_target_network(self):
        vars = list(fluid.default_main_program().list_vars())
-        policy_vars = filter(
+        policy_vars = list(filter(
-            lambda x: 'GRAD' not in x.name and 'policy' in x.name, vars)
+            lambda x: 'GRAD' not in x.name and 'policy' in x.name, vars))
-        target_vars = filter(
+        target_vars = list(filter(
-            lambda x: 'GRAD' not in x.name and 'target' in x.name, vars)
+            lambda x: 'GRAD' not in x.name and 'target' in x.name, vars))
        policy_vars.sort(key=lambda x: x.name)
        target_vars.sort(key=lambda x: x.name)

--- a/fluid/DeepQNetwork/DoubleDQN_agent.py
+++ b/fluid/DeepQNetwork/DoubleDQN_agent.py
@@ -142,10 +142,10 @@ class DoubleDQNModel(object):
    def _build_sync_target_network(self):
        vars = list(fluid.default_main_program().list_vars())
-        policy_vars = filter(
+        policy_vars = list(filter(
-            lambda x: 'GRAD' not in x.name and 'policy' in x.name, vars)
+            lambda x: 'GRAD' not in x.name and 'policy' in x.name, vars))
-        target_vars = filter(
+        target_vars = list(filter(
-            lambda x: 'GRAD' not in x.name and 'target' in x.name, vars)
+            lambda x: 'GRAD' not in x.name and 'target' in x.name, vars))
        policy_vars.sort(key=lambda x: x.name)
        target_vars.sort(key=lambda x: x.name)

--- a/fluid/DeepQNetwork/DuelingDQN_agent.py
+++ b/fluid/DeepQNetwork/DuelingDQN_agent.py
@@ -145,10 +145,10 @@ class DuelingDQNModel(object):
    def _build_sync_target_network(self):
        vars = list(fluid.default_main_program().list_vars())
-        policy_vars = filter(
+        policy_vars = list(filter(
-            lambda x: 'GRAD' not in x.name and 'policy' in x.name, vars)
+            lambda x: 'GRAD' not in x.name and 'policy' in x.name, vars))
-        target_vars = filter(
+        target_vars = list(filter(
-            lambda x: 'GRAD' not in x.name and 'target' in x.name, vars)
+            lambda x: 'GRAD' not in x.name and 'target' in x.name, vars))
        policy_vars.sort(key=lambda x: x.name)
        target_vars.sort(key=lambda x: x.name)

--- a/fluid/DeepQNetwork/atari.py
+++ b/fluid/DeepQNetwork/atari.py
@@ -55,7 +55,7 @@ class AtariPlayer(gym.Env):
        try:
            ALEInterface.setLoggerMode(ALEInterface.Logger.Error)
        except AttributeError:
-            print "You're not using latest ALE"
+            print("You're not using latest ALE")
        # avoid simulator bugs: https://github.com/mgbellemare/Arcade-Learning-Environment/issues/86
        with _ALE_LOCK:

--- a/fluid/DeepQNetwork/train.py
+++ b/fluid/DeepQNetwork/train.py
@@ -74,7 +74,7 @@ def get_player(rom, viz=False, train=False):
 def eval_agent(agent, env):
    episode_reward = []
-    for _ in tqdm(xrange(30), desc='eval agent'):
+    for _ in tqdm(range(30), desc='eval agent'):
        state = env.reset()
        total_reward = 0
        step = 0