提交 2d09c596 编写于 作者: X xiaowei_xing

test

上级 19e05468
......@@ -552,4 +552,6 @@ $$
**解答** 我们希望找到 $\pi'$,但为了达到这一目标,我们需要用 $\pi'$ 执行 rollout,这一过程过于缓慢。我们需要使用重要性采样。
**练习 6.7**
\ No newline at end of file
**练习 6.7** 这里是对离散动作空间使用自动微分来执行最大似然估计的伪代码。
\tt{logits = policy.predictions(states)}
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册