fix PaddleRL policy_gradient bug

6b9dd1d8 · ZHANG, Zijie · 3a33a0bb · 6b9dd1d8 · 6b9dd1d8
隐藏空白更改
内联并排

Showing with 6 addition and 4 deletion

PaddleRL/policy_gradient/brain.py PaddleRL/policy_gradient/brain.py +4 -2

PaddleRL/policy_gradient/env.py PaddleRL/policy_gradient/env.py +2 -2

未找到文件。
--- a/PaddleRL/policy_gradient/brain.py
+++ b/PaddleRL/policy_gradient/brain.py
@@ -22,6 +22,8 @@ class PolicyGradient:
        self.place = fluid.CPUPlace()
        self.exe = fluid.Executor(self.place)

+        self.all_act_prob = None
+
    def build_net(self):

        obs = fluid.layers.data(
@@ -31,10 +33,10 @@ class PolicyGradient:
        # fc1
        fc1 = fluid.layers.fc(input=obs, size=10, act="tanh")  # tanh activation
        # fc2
-        all_act_prob = fluid.layers.fc(input=fc1,
+        self.all_act_prob = fluid.layers.fc(input=fc1,
                                       size=self.n_actions,
                                       act="softmax")
-        self.inferece_program = fluid.defaul_main_program().clone()
+        self.inferece_program = fluid.default_main_program().clone()
        # to maximize total reward (log_p * R) is to minimize -(log_p * R)
        neg_log_prob = fluid.layers.cross_entropy(
            input=self.all_act_prob,

--- a/PaddleRL/policy_gradient/env.py
+++ b/PaddleRL/policy_gradient/env.py
@@ -43,9 +43,9 @@ class Env():

    def draw(self, new_line=False):
        if new_line:
-            print ""
+            print("")
        else:
-            print "\r",
+            print("\r")
        for i in range(self.stage_len):
            if i == self.position:
                sys.stdout.write("O")