test

d8aa63a5 · xiaowei_xing · a4c0d594 · d8aa63a5
隐藏空白更改
内联并排

Showing with 15 addition and 1 deletion

docs/8&9.md docs/8&9.md +15 -1

未找到文件。
--- a/docs/8&9.md
+++ b/docs/8&9.md
@@ -110,4 +110,18 @@ $\bullet$ 协方差矩阵自适应（Covariance matrix adaption, CMA）

 $\bullet$ 进化策略（Evolution strategies）

-与基于梯度的方法相比，这些方法的优点是不需要计算目标函数的梯度，这就允许了参数化策略可以是不可导的，而且通常也很容易并行化这些方法。无梯度方法通常是个有用的基线，有时候这些方法的表现出奇的好 [1]。然而，由于这些方法忽略了奖励的时间结构，即更新只考虑整个片段的总奖励，而不会将奖励分解为轨迹中的每个状态的奖励，因此它们通常不是数据高效的。
\ No newline at end of file
+与基于梯度的方法相比，这些方法的优点是不需要计算目标函数的梯度，这就允许了参数化策略可以是不可导的，而且通常也很容易并行化这些方法。无梯度方法通常是个有用的基线，有时候这些方法的表现出奇的好 [1]。然而，由于这些方法忽略了奖励的时间结构，即更新只考虑整个片段的总奖励，而不会将奖励分解为轨迹中的每个状态的奖励，因此它们通常不是数据高效的（见 4.3 节）。
+
+# 4. 策略梯度（Policy Gradient）
+
+定义 $V(\theta)$ 为我们希望基于 $\theta$ 最大化的目标函数。策略梯度的方法通过提升策略的梯度来搜索基于 $\theta$ 的 $V(\theta)$ 的局部最大值：
+
+$$
+\Delta\theta=\alpha\nabla_{\theta}V(\theta)，
+$$
+
+这里 $\alpha$ 为步长，$\nabla_{\theta}V(\theta)$ 为策略梯度：
+
+$$
+\nabla_{\theta}V(\theta)=\begin{pmatrix} \frac{\partial V(\theta)}{\partial \theta_1} \\ \cdots \\ \frac{\partial V(\theta)}{\partial \theta_n} \\ \end{pmatrix}。
+$$
\ No newline at end of file