提交 bf523a9b 编写于 作者: X xiaowei_xing

test

上级 96ddccc4
......@@ -23,7 +23,7 @@ $$
贪婪策略(greedy algorithm)选择有最大估计价值的动作:$a_{t}^{\ast}=\mathop{\arg\max}_ {a\in A} \hat{Q}_ {t}(a)$。然而,贪婪的做法可能使得次优的动作永远无法被采用。像在 MDPs 中那样,我们也可以使用(固定的)$\epsilon$-贪婪算法($\epsilon$-greedy algorithm),即以 $1-\epsilon$ 的概率选择贪婪动作,以 $\epsilon$ 的概率选择随机动作。另一个算法是衰减 $\epsilon_{t}$-贪婪算法(decaying $\epsilon_{t}$-greedy algorithm),这里 $\epsilon_{t}$ 按照一定规律衰减。
一个简单的基于 $\epsilon$-贪婪算法的方法是乐观初始化(optimistic initialization),它所有 $a\in A$ 的 $\hat{Q}_ {0}(a)$ 初始化为大于真值 $Q(a)$ 的某个值,也就是说,我们开始时对所有的动作选择“非常乐观”。在每一步我们可以使用贪婪(或 $\epsilon$-贪婪)的方法来选择动作,由于真正的奖励都低于我们的初始估计,所以被采用过的动作的估计值 $\hat{Q}$ 就会减小,这就鼓励了行为体对那些未被采用过的、$\hat{Q}$ 值仍旧大的动作进行探索。因此,所有的动作都会被至少尝试一次,可能多次。此外,我们可以初始化 $N_{0}(a)>0$ 以调整乐观初始化向真值收敛的速度。
一个简单的基于 $\epsilon$-贪婪算法的方法是乐观初始化(optimistic initialization),它所有 $a\in A$ 的 $\hat{Q}_ {0}(a)$ 初始化为大于真值 $Q(a)$ 的某个值,也就是说,我们开始时对所有的动作选择“非常乐观”。在每一步我们可以使用贪婪(或 $\epsilon$-贪婪)的方法来选择动作,由于真正的奖励都低于我们的初始估计,所以被采用过的动作的估计值 $\hat{Q}$ 就会减小,这就鼓励了行为体对那些未被采用过的、$\hat{Q}$ 值仍旧大的动作进行探索。因此,所有的动作都会被至少尝试一次,可能多次。此外,我们可以初始化 $N_{0}(a)>0$ 以调整乐观初始化向真值收敛的速度。
### 2.1 遗憾(Regret)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册