From d8aa63a530876dea051d83906f79e3df61099748 Mon Sep 17 00:00:00 2001
From: xiaowei_xing <997427575@qq.com>
Date: Sat, 14 Sep 2019 18:49:58 +0900
Subject: [PATCH] test

---
 docs/8&9.md | 16 +++++++++++++++-
 1 file changed, 15 insertions(+), 1 deletion(-)

diff --git a/docs/8&9.md b/docs/8&9.md
index 7e9be28..3fafbc2 100644
--- a/docs/8&9.md
+++ b/docs/8&9.md
@@ -110,4 +110,18 @@ $\bullet$ 协方差矩阵自适应（Covariance matrix adaption, CMA）
 
 $\bullet$ 进化策略（Evolution strategies）
 
-与基于梯度的方法相比，这些方法的优点是不需要计算目标函数的梯度，这就允许了参数化策略可以是不可导的，而且通常也很容易并行化这些方法。无梯度方法通常是个有用的基线，有时候这些方法的表现出奇的好 [1]。然而，由于这些方法忽略了奖励的时间结构，即更新只考虑整个片段的总奖励，而不会将奖励分解为轨迹中的每个状态的奖励，因此它们通常不是数据高效的。
\ No newline at end of file
+与基于梯度的方法相比，这些方法的优点是不需要计算目标函数的梯度，这就允许了参数化策略可以是不可导的，而且通常也很容易并行化这些方法。无梯度方法通常是个有用的基线，有时候这些方法的表现出奇的好 [1]。然而，由于这些方法忽略了奖励的时间结构，即更新只考虑整个片段的总奖励，而不会将奖励分解为轨迹中的每个状态的奖励，因此它们通常不是数据高效的（见 4.3 节）。
+
+# 4. 策略梯度（Policy Gradient）
+
+定义 $V(\theta)$ 为我们希望基于 $\theta$ 最大化的目标函数。策略梯度的方法通过提升策略的梯度来搜索基于 $\theta$ 的 $V(\theta)$ 的局部最大值：
+
+$$
+\Delta\theta=\alpha\nabla_{\theta}V(\theta)，
+$$
+
+这里 $\alpha$ 为步长，$\nabla_{\theta}V(\theta)$ 为策略梯度：
+
+$$
+\nabla_{\theta}V(\theta)=\begin{pmatrix} \frac{\partial V(\theta)}{\partial \theta_1} \\ \cdots \\ \frac{\partial V(\theta)}{\partial \theta_n} \\ \end{pmatrix}。
+$$
\ No newline at end of file
-- 
GitLab