提交 ac85eaad 编写于 作者: X xiaowei_xing

test

上级 209892c7
......@@ -106,4 +106,25 @@ $$
$$
P[Q(a)>\hat{Q}_ {t}(a)+U_ {t}(a)] \leq e^{-2N_{t}(a)U_{t}(a)^{2}}。
\tag{6}
$$
\ No newline at end of file
$$
选择一个概率 $p$ 使得
$$
e^{-2N_{t}(a)U_{t}(a)^{2}} = p,
\tag{7}
$$
$$
U_{t}(a) = \sqrt{\frac{-\log p}{2N_{t}(a)}}。
\tag{8}
$$
随着我们观察到更多的奖励,我们将减小 $p$,特别地,选择 $p=t^{-4}$ 便得到了 UCB1 算法:
$$
a_{t} = \mathop{\arg\max}_ {a\in A}(Q(a)+\sqrt{\frac{2\log t}{N_{t}(a)}}),
\tag{9}
$$
这样保证了渐近最优动作选择,即它将 [[1]](\ref1) 下界匹配到常数因子。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册