diff --git a/docs/10.md b/docs/10.md index ae86b543c8f281699a95783d0525a3c234eb2d18..5a2fc15bef7af5941158477ba9956f2df0d70349 100644 --- a/docs/10.md +++ b/docs/10.md @@ -552,4 +552,6 @@ $$ **解答** 我们希望找到 $\pi'$,但为了达到这一目标,我们需要用 $\pi'$ 执行 rollout,这一过程过于缓慢。我们需要使用重要性采样。 -**练习 6.7** \ No newline at end of file +**练习 6.7** 这里是对离散动作空间使用自动微分来执行最大似然估计的伪代码。 + +\tt{logits = policy.predictions(states)} \ No newline at end of file