test

f8a187d1 · xiaowei_xing · 16316936 · f8a187d1
隐藏空白更改
内联并排

Showing with 11 addition and 1 deletion

docs/8&9.md docs/8&9.md +11 -1

未找到文件。
--- a/docs/8&9.md
+++ b/docs/8&9.md
@@ -349,4 +349,14 @@ $$
 ## 6.2 连续动作空间：高斯策略（Continuous Action Space: Gaussian Policy）
 对于连续动作空间，一个常用的选择是高斯策略：$a \sim \cal{N} (\mu(s),\sigma^2)$。
\ No newline at end of file
+$\bullet$ 动作的平均值为状态特征的线性组合：$\mu(s)=\phi(s)^{\text{T}}\theta$；
+$\bullet$ 方差 $\sigma^2$ 可以是固定的，也可以是参数化的。
+评价函数为：
+$$
+\nabla_{\theta} \log \pi_{\theta}(a|s) = \frac{(a-\mu(s))\phi(s)}{\sigma^2}。
+$$
\ No newline at end of file