提交 a3b14ee8 编写于 作者: X xiaowei_xing

test

上级 ae3a0608
...@@ -318,5 +318,11 @@ $$ ...@@ -318,5 +318,11 @@ $$
离散动作空间中,我们通常用软最大值函数(softmax function)来参数化策略: 离散动作空间中,我们通常用软最大值函数(softmax function)来参数化策略:
$$ $$
\pi_{\theta}(a|s)=\frac{e^{\phi(s,a)^{\text{T}}\theta}}{sum_{a'} e^{\phi(s,a')^{\text{T}}\theta}}。 \pi_{\theta}(a|s)=\frac{e^{\phi(s,a)^{\text{T}}\theta}}{\sum_{a'} e^{\phi(s,a')^{\text{T}}\theta}}。
$$
则评价函数变为:
$$
\nabla_{\theta} \log \pi_{\theta}(a|s) = \nabla_{\theta} [\phi(s,a)^{\text{T}}\theta - \log \sum_{a'}e^{\phi(s,a')^{\text{T}}\theta}]
$$ $$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册