diff --git a/docs/11&12.md b/docs/11&12.md index 0969ce91b9d70cc3fa282e27c37d582c05c68026..8e66d5ca3eb1bd5e0b485835abd49be3eb3e69c3 100644 --- a/docs/11&12.md +++ b/docs/11&12.md @@ -95,8 +95,15 @@ $$ 这可以由 Hoeffding 不等式(Hoeffding's inequality)推导得出。 -**定理 2**(Hoeffding 不等式)令 $X_{1},...,X_{t}$ 为在区间 $[0,1]$ 中的独立同分布(i.i.d.)随机变量,$\overline{X}=\frac{1}{t}\sum_{\tau=1}^{t}X_{\tau}$ 为平均值,$u$ 为一个常量。那么, +**定理 2**(Hoeffding 不等式)令 $X_{1},...,X_{t}$ 为在区间 $[0,1]$ 中的独立同分布(i.i.d.)随机变量,$\overline{X}=\frac{1}{t}\sum_{\tau=1}^{t}X_{\tau}$ 为平均值,$u$ 为一个常量。那么, $$ -P[ \mathbb{E}[x]>\overline{X}_{t}+u] \leq e^{-2tu^{1}}。 +P[ \mathbb{E}[x]>\overline{X}_{t}+u] \leq e^{-2tu^{2}}。 +$$ + +对 MAB 问题应用[定理 2](#thm2),我们得到: + +$$ +P[Q(a)>\hat{Q}_ {t}(a)+U_ {t}(a)] \leq e^{-2N_{t}(a)U_{t}(a)^{2}}。 +\tag{6} $$ \ No newline at end of file