support paddle 1.8.2 (#317)

2e56337e · Bo Zhou · GitHub · 524ba6f6 · 2e56337e · 2e56337e
显示空白变更内容
内联并排

Showing with 2 addition and 2 deletion

examples/DQN_variant/train.py examples/DQN_variant/train.py +1 -1

parl/algorithms/fluid/ddqn.py parl/algorithms/fluid/ddqn.py +1 -1

未找到文件。
--- a/examples/DQN_variant/train.py
+++ b/examples/DQN_variant/train.py
@@ -93,7 +93,7 @@ def main():
    act_dim = env.action_space.n

    model = AtariModel(act_dim, args.algo)
-    if args.algo == 'Double':
+    if args.algo == 'DDQN':
        algorithm = parl.algorithms.DDQN(model, act_dim=act_dim, gamma=GAMMA)
    elif args.algo in ['DQN', 'Dueling']:
        algorithm = parl.algorithms.DQN(model, act_dim=act_dim, gamma=GAMMA)

--- a/parl/algorithms/fluid/ddqn.py
+++ b/parl/algorithms/fluid/ddqn.py
@@ -75,7 +75,7 @@ class DDQN(Algorithm):
        greedy_action = layers.argmax(next_action_value, axis=-1)

        # calculate the target q value with target network
-        batch_size = layers.cast(layers.shape(greedy_action)[0], dtype='int')
+        batch_size = layers.cast(layers.shape(greedy_action)[0], dtype='int32')
        range_tmp = layers.range(
            start=0, end=batch_size, step=1, dtype='int64') * self.act_dim
        a_indices = range_tmp + greedy_action