提交 4719ab38 编写于 作者: X xiaowei_xing

test

上级 b750da01
......@@ -301,6 +301,21 @@ $$
我们将要在下一节的策略梯度算法中使用的表达式为:
$$
\nabla_{\theta} V(\theta) = \nabla_{\theta} \mathbb{E}_ {\tau \sim \pi_{\theta}}[R(\tau)] \approx \frac{1}{m}\sum_{i=1}^{m}\sum_{t=0}^{T-1}G_t^{(i)} \nabla_{\theta} \log \pi_{\theta}(a_t^{(i)}|s_t^{(i)})
\nabla_{\theta} V(\theta) = \nabla_{\theta} \mathbb{E}_ {\tau \sim \pi_{\theta}}[R(\tau)] \approx \frac{1}{m}\sum_{i=1}^{m}\sum_{t=0}^{T-1}G_t^{(i)} \nabla_{\theta} \log \pi_{\theta}(a_t^{(i)}|s_t^{(i)})
\tag{15}
$$
\ No newline at end of file
$$
# 5. REINFORCE:一个蒙特卡洛策略梯度算法(REINFORCE: A Monte Carlo Policy Gradient Algorithm)
在前面的部分中,我们已经完成了第一个策略梯度算法的大部分工作,该算法对遵循策略 $\pi_{\theta}$ 的多个轨迹采样,同时根据式(15)的梯度估计更新 $\theta$。
# 算法1
# 6. 可导策略类(Differentiable Policy Classes)
## 6.1 离散动作空间:软最大值策略(Discrete Action Space: Softmax Policy)
离散动作空间中,我们通常用软最大值函数(softmax function)来参数化策略:
$$
\pi_{\theta}(a|s)=\frac{e^{\phi(s,a)^{\text{T}}\theta}}{sum_{a'} e^{\phi(s,a')^{\text{T}}\theta}}。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册