test

26834ab6 · xiaowei_xing · 0d09c068 · 26834ab6
隐藏空白更改
内联并排

Showing with 5 addition and 3 deletion

docs/10.md docs/10.md +5 -3

未找到文件。
--- a/docs/10.md
+++ b/docs/10.md
@@ -200,9 +200,11 @@ $$
 $$

 $$
-= 2\mathbb{E} [(\nabla_{\theta} \log \pi_{\theta}(\tau))^2 b] - 2\mathbb{E} [(\nabla_{\theta} \log \pi_{\theta}(\tau))^2 r(tau)] = 0，
+= 2\mathbb{E} [(\nabla_{\theta} \log \pi_{\theta}(\tau))^2 b] - 2\mathbb{E} [(\nabla_{\theta} \log \pi_{\theta}(\tau))^2 r(\tau)] = 0，
 $$

 $$
-b = \frac{\mathbb{E} [(\nabla_{\theta} \log \pi_{\theta}(\tau))^2 r(tau)]}{\mathbb{E} [(\nabla_{\theta} \log \pi_{\theta}(\tau))^2]}。
-$$
\ No newline at end of file
+b = \frac{\mathbb{E} [(\nabla_{\theta} \log \pi_{\theta}(\tau))^2 r(\tau)]}{\mathbb{E} [(\nabla_{\theta} \log \pi_{\theta}(\tau))^2]}。
+$$
+
+## 3. 离线策略策略梯度（Off Policy Policy Gradient）
\ No newline at end of file