test

4719ab38 · xiaowei_xing · b750da01 · 4719ab38
隐藏空白更改
内联并排

Showing with 17 addition and 2 deletion

docs/8&9.md docs/8&9.md +17 -2

未找到文件。
--- a/docs/8&9.md
+++ b/docs/8&9.md
@@ -301,6 +301,21 @@ $$
 我们将要在下一节的策略梯度算法中使用的表达式为：

 $$
-\nabla_{\theta} V(\theta) = \nabla_{\theta} \mathbb{E}_ {\tau \sim \pi_{\theta}}[R(\tau)] \approx \frac{1}{m}\sum_{i=1}^{m}\sum_{t=0}^{T-1}G_t^{(i)} \nabla_{\theta} \log \pi_{\theta}(a_t^{(i)}|s_t^{(i)})
+\nabla_{\theta} V(\theta) = \nabla_{\theta} \mathbb{E}_ {\tau \sim \pi_{\theta}}[R(\tau)] \approx \frac{1}{m}\sum_{i=1}^{m}\sum_{t=0}^{T-1}G_t^{(i)} \nabla_{\theta} \log \pi_{\theta}(a_t^{(i)}|s_t^{(i)})。
 \tag{15}
-$$
\ No newline at end of file
+$$
+
+# 5. REINFORCE：一个蒙特卡洛策略梯度算法（REINFORCE: A Monte Carlo Policy Gradient Algorithm）
+
+在前面的部分中，我们已经完成了第一个策略梯度算法的大部分工作，该算法对遵循策略 $\pi_{\theta}$ 的多个轨迹采样，同时根据式（15）的梯度估计更新 $\theta$。
+
+# 算法1
+
+# 6. 可导策略类（Differentiable Policy Classes)
+
+## 6.1 离散动作空间：软最大值策略（Discrete Action Space: Softmax Policy）
+
+离散动作空间中，我们通常用软最大值函数（softmax function）来参数化策略：
+
+$$
+\pi_{\theta}(a|s)=\frac{e^{\phi(s,a)^{\text{T}}\theta}}{sum_{a'} e^{\phi(s,a')^{\text{T}}\theta}}。
\ No newline at end of file