test

54f1cd0d · xiaowei_xing · 92b1add3 · 54f1cd0d
隐藏空白更改
内联并排

Showing with 6 addition and 2 deletion

docs/11&12.md docs/11&12.md +6 -2

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -25,6 +25,10 @@ $$

 一个简单的基于 $\epsilon$-贪婪算法的方法是乐观初始化（optimistic initialization），它讲所有 $a\in A$ 的 $\hat{Q}_ {0}(a)$ 初始化为大于真值 $Q(a)$ 的某个值，也就是说，我们开始时对所有的动作选择“非常乐观”。在每一步我们可以使用贪婪（或 $\epsilon$-贪婪）的方法来选择动作，由于真正的奖励都低于我们的初始估计，所以被采用过的动作的估计值 $\hat{Q}$ 就会减小，这就鼓励了行为体对那些未被采用过的、$\hat{Q}$ 值仍旧大的动作进行探索。因此，所有的动作都会被至少尝试一次，可能多次。此外，我们可以初始化 $N_{0}(a)>0$ 以调整乐观初始化向真值收敛的速度。

-### 2.1 （Regret）
+### 2.1 ？？（Regret）

-这些探索策略自然会产生一个问题，即我们应该使用哪种度量来比较它们。可能的度量包括经验性的表现（尽管这依赖于环境）、渐近收敛的保证、有限采样的保证或 PAC 的保证。
\ No newline at end of file
+这些探索策略自然会产生一个问题，即我们应该使用哪种标准来比较它们。可能的标准包括经验性的表现（尽管这依赖于环境）、渐近收敛的保证、有限采样的保证或 PAC 的保证。在 MAB 文献中的标准通常是？？（regret），我们现在定义？？以及相关的量。
+
+$\bullet$ 动作值 $Q(a)=\mathbb{E}[r|a]$
+
+$\bullet$ 最优值 $V^{\ast}=Q(a^{\ast})=\mathop{\max}_{a\in A}Q(a)$
\ No newline at end of file