From d8aa63a530876dea051d83906f79e3df61099748 Mon Sep 17 00:00:00 2001 From: xiaowei_xing <997427575@qq.com> Date: Sat, 14 Sep 2019 18:49:58 +0900 Subject: [PATCH] test --- docs/8&9.md | 16 +++++++++++++++- 1 file changed, 15 insertions(+), 1 deletion(-) diff --git a/docs/8&9.md b/docs/8&9.md index 7e9be28..3fafbc2 100644 --- a/docs/8&9.md +++ b/docs/8&9.md @@ -110,4 +110,18 @@ $\bullet$ 协方差矩阵自适应(Covariance matrix adaption, CMA) $\bullet$ 进化策略(Evolution strategies) -与基于梯度的方法相比,这些方法的优点是不需要计算目标函数的梯度,这就允许了参数化策略可以是不可导的,而且通常也很容易并行化这些方法。无梯度方法通常是个有用的基线,有时候这些方法的表现出奇的好 [1]。然而,由于这些方法忽略了奖励的时间结构,即更新只考虑整个片段的总奖励,而不会将奖励分解为轨迹中的每个状态的奖励,因此它们通常不是数据高效的。 \ No newline at end of file +与基于梯度的方法相比,这些方法的优点是不需要计算目标函数的梯度,这就允许了参数化策略可以是不可导的,而且通常也很容易并行化这些方法。无梯度方法通常是个有用的基线,有时候这些方法的表现出奇的好 [1]。然而,由于这些方法忽略了奖励的时间结构,即更新只考虑整个片段的总奖励,而不会将奖励分解为轨迹中的每个状态的奖励,因此它们通常不是数据高效的(见 4.3 节)。 + +# 4. 策略梯度(Policy Gradient) + +定义 $V(\theta)$ 为我们希望基于 $\theta$ 最大化的目标函数。策略梯度的方法通过提升策略的梯度来搜索基于 $\theta$ 的 $V(\theta)$ 的局部最大值: + +$$ +\Delta\theta=\alpha\nabla_{\theta}V(\theta), +$$ + +这里 $\alpha$ 为步长,$\nabla_{\theta}V(\theta)$ 为策略梯度: + +$$ +\nabla_{\theta}V(\theta)=\begin{pmatrix} \frac{\partial V(\theta)}{\partial \theta_1} \\ \cdots \\ \frac{\partial V(\theta)}{\partial \theta_n} \\ \end{pmatrix}。 +$$ \ No newline at end of file -- GitLab