提交 f8a187d1 编写于 作者: X xiaowei_xing

test

上级 16316936
......@@ -349,4 +349,14 @@ $$
## 6.2 连续动作空间:高斯策略(Continuous Action Space: Gaussian Policy)
对于连续动作空间,一个常用的选择是高斯策略:$a \sim \cal{N} (\mu(s),\sigma^2)$。
\ No newline at end of file
对于连续动作空间,一个常用的选择是高斯策略:$a \sim \cal{N} (\mu(s),\sigma^2)$。
$\bullet$ 动作的平均值为状态特征的线性组合:$\mu(s)=\phi(s)^{\text{T}}\theta$;
$\bullet$ 方差 $\sigma^2$ 可以是固定的,也可以是参数化的。
评价函数为:
$$
\nabla_{\theta} \log \pi_{\theta}(a|s) = \frac{(a-\mu(s))\phi(s)}{\sigma^2}。
$$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册