Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
4997934f
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
4997934f
编写于
2月 07, 2020
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
4e3f74b4
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
3 deletion
+3
-3
docs/14.md
docs/14.md
+3
-3
未找到文件。
docs/14.md
浏览文件 @
4997934f
...
...
@@ -78,7 +78,7 @@ $\bullet$ 状态评估是动态的,即从当前状态开始解决 MDP 问题
$
\b
ullet$ 不需要模型,只需要样本
$
\b
ullet$ 有效地结合规划和抽样来打破维度灾难(如围棋)
<span
id=
"fig2"
>
$
\b
ullet$ 有效地结合规划和抽样来打破维度灾难(如围棋)
</span>
<div
align=
center
><img
src=
"img/fig14_2.png"
/></div>
...
...
@@ -114,12 +114,12 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难(如围棋)
一旦我们到达了树的叶节点,如
[
图 4
](
#fig4
)
(b)所示,我们就使用仿真策略来模拟一次游戏。然后,这次游戏的结果通过树反向传播(
[
图 4
](
#fig4
)
(c)),同时我们更新统计信息。
继续执行这个过程直到结束,然后最佳动作便可以得到。有关详细的伪代码,可以参考
[
[4]
](
#ref4
)
,Python 实现可以参考
[
[3]
](
#ref3
)
。
<span
id=
"fig4"
>
继续执行这个过程直到结束,然后最佳动作便可以得到。有关详细的伪代码,可以参考
[
[4]
](
#ref4
)
,Python 实现可以参考
[
[3]
](
#ref3
)
。
</span>
<div
align=
center
><img
src=
"img/fig14_4.png"
/></div>
<div
align=
center
>
图 4:基于 MCTS 的围棋。(a)UCB1 算法在每个步骤中选择的位置和移动都用粗体进行表示。每个圆圈包含了获胜次数/游戏次数。(b)树底部标记为 $1/1$ 的位置下没有进一步的统计记录,因此我们选择一个随机的动作并为其添加一个新纪录(初始化为 $0/0$)。添加新纪录后,蒙特卡洛仿真开始(虚线箭头)。仿真中的动作可以是完全随机的,也可以为随机性添加权重。(c)仿真结束后,路径中的所有记录都将更新(粗体数字)。
图 4:基于 MCTS 的围棋。(a)UCB1 算法在每个步骤中选择的位置和移动都用粗体进行表示。每个圆圈包含了获胜次数/游戏次数。(b)树底部标记为 $1/1$ 的位置下没有进一步的统计记录,因此我们选择一个随机的动作并为其添加一个新纪录(初始化为 $0/0$)。添加新纪录后,蒙特卡洛仿真开始(虚线箭头)。仿真中的动作可以是完全随机的,也可以为随机性添加权重。(c)仿真结束后,路径中的所有记录都将更新(粗体数字)。
(图出处:
[
[3]
](
#ref3
)
)
</div>
AlphaGo
[
[1]
](
#ref1
)
在仿真阶段使用了一个深度策略网络,这使得仿真比仅仅使用随机仿真更加真实。在围棋这种复杂的游戏中,仿真直到结束是不合适的,AlphaGo 会提前停止仿真,同时还使用了一个价值网络来获得获胜概率。最近,AlphaGo Zero
[
[2]
](
#ref2
)
被提出,它使用一个单一的网络来同时输出策略和价值函数,并且只使用自玩来训练而没有内置的专家知识。AlphaGo Zero 的表现比 AlphaGo 更加令人印象深刻。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录