updated

752ad2af · xiaowei_xing · 98ff6fba · 752ad2af
隐藏空白更改
内联并排

Showing with 6 addition and 6 deletion

docs/1.md docs/1.md +6 -6

未找到文件。
--- a/docs/1.md
+++ b/docs/1.md
@@ -6,7 +6,7 @@

 在强化学习（Reinforcement Learning）中，我们考虑在没有明确的指导的情况下，学习如何通过经验（experience）去进行动作（action）的问题。强化学习行为体（agent）需要同它所处的环境（environment）交互，并从中学习如何最大化随时间累积的奖励（reward）。

-可能是由于 Deep Q-Network [1] 取得了巨大进步，近些年来强化学习越来越收到欢迎。人工智能的其他领域也正尝试通过借鉴与利用强化学习中的概念去取得成功。例如，AlphaGo 通过强化学习的方法在围棋领域达到了超过人类的表现 [3]，强化学习的概念在生成对抗网络（Generative Adversarial Networks, GAN）的训练过程中也得以应用 [2]。
+可能是由于 Deep Q-Network [[1]](#ref1) 取得了巨大进步，近些年来强化学习越来越收到欢迎。人工智能的其他领域也正尝试通过借鉴与利用强化学习中的概念去取得成功。例如，AlphaGo 通过强化学习的方法在围棋领域达到了超过人类的表现 [[3]](#ref3)，强化学习的概念在生成对抗网络（Generative Adversarial Networks, GAN）的训练过程中也得以应用 [[2]](#ref2)。

 很多人好奇强化学习与其他机器学习方式的不同之处。在有监督学习（Supervised Learning）中，已知包括了例子和标记的数据集，对于分类问题，例子对应的正确的标签已知；对于回归问题，例子对应的正确的输出已知。相反，无监督学习（Unsupervised Learning）指的是利用标记未知的数据集，找到数据中隐含的关系。在强化学习中，我们需要做出决策并比较可采取的动作，而不是做出预测。强化学习行为体可以和环境交互，并在每次交互中获得一些立即的、局部反馈信号，这些信号通常被称作奖励。但是，行为体不知道它采取的动作是否是它能够选择的“最好的“动作，它必须通过某种方式去学习通过选择一些动作来最大化长期的累积的奖励。因此，由于奖励信号提供的反馈很弱/不完整，我们可以认为强化学习介于有监督学习和无监督学习之间：有监督学习中的有标记的数据提供强有力的反馈，而无监督学习中没有标记或反馈。

@@ -79,7 +79,7 @@ Model Free | ? | ? | X
 <div align=center><img src="img/fig1_2.png"/></div>

 <div align=center>
-图 2：强化学习行为体分类。[4] (http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf)
+图 2：强化学习行为体分类。[[4]](#ref4) (http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf)
 </div>

 ### 2.5 连续空间
@@ -88,10 +88,10 @@ Model Free | ? | ? | X

 ## 参考文献

-1. V. Mnih et al., "Human-level control through deep reinforcement learning," *Nature* 518(7540): 529-533, 2015.
+1. <span id="ref1">V. Mnih et al., "Human-level control through deep reinforcement learning," *Nature* 518(7540): 529-533, 2015.</span>

-2. D. Pfau, and O. Vinyals, "Connecting generative adversarial networks and actor-critic methods," *arXiv preprint arXiv: 1610.01945*, 2016.
+2. <span id="ref2">D. Pfau, and O. Vinyals, "Connecting generative adversarial networks and actor-critic methods," *arXiv preprint arXiv: 1610.01945*, 2016.</span>

-3. D. Silver et al., "Mastering the game of Go with deep neural networks and tree search," *Nature* 529(7587): 484-489, 2016.
+3. <span id="ref3">D. Silver et al., "Mastering the game of Go with deep neural networks and tree search," *Nature* 529(7587): 484-489, 2016.</span>

-4. D. Silver. "[Reinforcement Learning](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf)," 15 Jan. 2016. Reinforcement Learning, UCL.
\ No newline at end of file
+4. <span id="ref4">D. Silver. "[Reinforcement Learning](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf)," 15 Jan. 2016. Reinforcement Learning, UCL.</span>
\ No newline at end of file