test

b0ca0305 · xiaowei_xing · f8a187d1 · b0ca0305
隐藏空白更改
内联并排

Showing with 8 addition and 0 deletion

docs/8&9.md docs/8&9.md +8 -0

未找到文件。
--- a/docs/8&9.md
+++ b/docs/8&9.md
@@ -359,4 +359,12 @@ $\bullet$ 方差 $\sigma^2$ 可以是固定的，也可以是参数化的。

 $$
 \nabla_{\theta} \log \pi_{\theta}(a|s) = \frac{(a-\mu(s))\phi(s)}{\sigma^2}。
+$$
+
+# 7. 根据基准减小方差（Variance Reduction with a Baseline）
+
+蒙特卡洛策略梯度算法的一个缺点是多个片段的回报 $G_t^{(i)}$ 的方差通常很大。解决这个问题的一种方法是从每个 $G_t^{(i)}$ 减去一个基准（baseline）$b(s)$，这个基准可以是任何函数，只要它不随 $a$ 的变化而变化。
+
+$$
+\nabla_{\theta} V(\theta) = \nabla_{\theta} \mathbb{E}_ {\tau \sim \pi_{\theta}}[R(\tau)] = \mathbb{E}_ {\pi_{\theta}}[\sum_{t=0}^{T-1}(G_t-b(s_t))\nabla_{\theta}\log\pi_{\theta}(a_t|s_t)]。
 $$
\ No newline at end of file