提交 54f1cd0d 编写于 作者: X xiaowei_xing

test

上级 92b1add3
......@@ -25,6 +25,10 @@ $$
一个简单的基于 $\epsilon$-贪婪算法的方法是乐观初始化(optimistic initialization),它讲所有 $a\in A$ 的 $\hat{Q}_ {0}(a)$ 初始化为大于真值 $Q(a)$ 的某个值,也就是说,我们开始时对所有的动作选择“非常乐观”。在每一步我们可以使用贪婪(或 $\epsilon$-贪婪)的方法来选择动作,由于真正的奖励都低于我们的初始估计,所以被采用过的动作的估计值 $\hat{Q}$ 就会减小,这就鼓励了行为体对那些未被采用过的、$\hat{Q}$ 值仍旧大的动作进行探索。因此,所有的动作都会被至少尝试一次,可能多次。此外,我们可以初始化 $N_{0}(a)>0$ 以调整乐观初始化向真值收敛的速度。
### 2.1 (Regret)
### 2.1 ??(Regret)
这些探索策略自然会产生一个问题,即我们应该使用哪种度量来比较它们。可能的度量包括经验性的表现(尽管这依赖于环境)、渐近收敛的保证、有限采样的保证或 PAC 的保证。
\ No newline at end of file
这些探索策略自然会产生一个问题,即我们应该使用哪种标准来比较它们。可能的标准包括经验性的表现(尽管这依赖于环境)、渐近收敛的保证、有限采样的保证或 PAC 的保证。在 MAB 文献中的标准通常是??(regret),我们现在定义??以及相关的量。
$\bullet$ 动作值 $Q(a)=\mathbb{E}[r|a]$
$\bullet$ 最优值 $V^{\ast}=Q(a^{\ast})=\mathop{\max}_{a\in A}Q(a)$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册