Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
大唐爆破僧
apachecn-dl-zh
提交
152315b0
A
apachecn-dl-zh
项目概览
大唐爆破僧
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
152315b0
编写于
1月 22, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-01-22 10:58:57
上级
91ae0187
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
5 addition
and
5 deletion
+5
-5
new/pt-dl-handson/7.md
new/pt-dl-handson/7.md
+5
-5
未找到文件。
new/pt-dl-handson/7.md
浏览文件 @
152315b0
...
...
@@ -85,10 +85,10 @@
MDP 定义有五件事:
*
有限状态集
*
一组有限的动作
*
有限
的奖励
*
有限动作集
*
有限
奖励集
*
折扣率
*
环境的
一站式
动态
*
环境的
单步
动态
我们已经了解了如何指定状态,操作,奖励和折扣率。 让我们找出如何指定环境的一步式动态。
...
...
@@ -173,8 +173,8 @@ MDP 定义有五件事:
我们的代码的训练循环如下所示:
*
随机初始化
`w`
![
Deep Q-learning
](
img/B09475_07_007.jpg
)
*
-
贪婪
*
对于所有
情节
:
*
ε
贪婪
*
对于所有
剧集
:
*
观察
`S`
*
虽然
`S`
并非在每个时间步都是终端:
*
使用!
[
Deep Q-learning
](
img/B09475_07_008.jpg
)
从
`S`
中选择
`A`
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录