Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
752ad2af
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
752ad2af
编写于
12月 06, 2019
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
updated
上级
98ff6fba
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
6 addition
and
6 deletion
+6
-6
docs/1.md
docs/1.md
+6
-6
未找到文件。
docs/1.md
浏览文件 @
752ad2af
...
...
@@ -6,7 +6,7 @@
在强化学习(Reinforcement Learning)中,我们考虑在没有明确的指导的情况下,学习如何通过经验(experience)去进行动作(action)的问题。强化学习行为体(agent)需要同它所处的环境(environment)交互,并从中学习如何最大化随时间累积的奖励(reward)。
可能是由于 Deep Q-Network [
1] 取得了巨大进步,近些年来强化学习越来越收到欢迎。人工智能的其他领域也正尝试通过借鉴与利用强化学习中的概念去取得成功。例如,AlphaGo 通过强化学习的方法在围棋领域达到了超过人类的表现 [3],强化学习的概念在生成对抗网络(Generative Adversarial Networks, GAN)的训练过程中也得以应用 [2]
。
可能是由于 Deep Q-Network
[
[1]
](
#ref1
)
取得了巨大进步,近些年来强化学习越来越收到欢迎。人工智能的其他领域也正尝试通过借鉴与利用强化学习中的概念去取得成功。例如,AlphaGo 通过强化学习的方法在围棋领域达到了超过人类的表现
[
[3]
](
#ref3
)
,强化学习的概念在生成对抗网络(Generative Adversarial Networks, GAN)的训练过程中也得以应用
[
[2]
](
#ref2
)
。
很多人好奇强化学习与其他机器学习方式的不同之处。在有监督学习(Supervised Learning)中,已知包括了例子和标记的数据集,对于分类问题,例子对应的正确的标签已知;对于回归问题,例子对应的正确的输出已知。相反,无监督学习(Unsupervised Learning)指的是利用标记未知的数据集,找到数据中隐含的关系。在强化学习中,我们需要做出决策并比较可采取的动作,而不是做出预测。强化学习行为体可以和环境交互,并在每次交互中获得一些立即的、局部反馈信号,这些信号通常被称作奖励。但是,行为体不知道它采取的动作是否是它能够选择的“最好的“动作,它必须通过某种方式去学习通过选择一些动作来最大化长期的累积的奖励。因此,由于奖励信号提供的反馈很弱/不完整,我们可以认为强化学习介于有监督学习和无监督学习之间:有监督学习中的有标记的数据提供强有力的反馈,而无监督学习中没有标记或反馈。
...
...
@@ -79,7 +79,7 @@ Model Free | ? | ? | X
<div
align=
center
><img
src=
"img/fig1_2.png"
/></div>
<div
align=
center
>
图 2:强化学习行为体分类。[
4]
(http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf)
图 2:强化学习行为体分类。
[
[4]
](
#ref4
)
(
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf
)
</div>
### 2.5 连续空间
...
...
@@ -88,10 +88,10 @@ Model Free | ? | ? | X
## 参考文献
1.
V. Mnih et al., "Human-level control through deep reinforcement learning,"
*Nature*
518(7540): 529-533, 2015.
1.
<span
id=
"ref1"
>
V. Mnih et al., "Human-level control through deep reinforcement learning,"
*Nature*
518(7540): 529-533, 2015.
</span>
2.
D. Pfau, and O. Vinyals, "Connecting generative adversarial networks and actor-critic methods,"
*arXiv preprint arXiv: 1610.01945*
, 2016.
2.
<span
id=
"ref2"
>
D. Pfau, and O. Vinyals, "Connecting generative adversarial networks and actor-critic methods,"
*arXiv preprint arXiv: 1610.01945*
, 2016.
</span>
3.
D. Silver et al., "Mastering the game of Go with deep neural networks and tree search,"
*Nature*
529(7587): 484-489, 2016.
3.
<span
id=
"ref3"
>
D. Silver et al., "Mastering the game of Go with deep neural networks and tree search,"
*Nature*
529(7587): 484-489, 2016.
</span>
4.
D. Silver. "
[
Reinforcement Learning
](
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf
)
," 15 Jan. 2016. Reinforcement Learning, UCL.
\ No newline at end of file
4.
<span
id=
"ref4"
>
D. Silver. "
[
Reinforcement Learning
](
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf
)
," 15 Jan. 2016. Reinforcement Learning, UCL.
</span>
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录