Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
li工
apachecn-dl-zh
提交
1b4e32a0
A
apachecn-dl-zh
项目概览
li工
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
1b4e32a0
编写于
1月 22, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-01-22 11:14:46
上级
e5b788ad
变更
4
隐藏空白更改
内联
并排
Showing
4 changed file
with
21 addition
and
21 deletion
+21
-21
new/rl-tf/07.md
new/rl-tf/07.md
+5
-5
new/rl-tf/08.md
new/rl-tf/08.md
+5
-5
new/rl-tf/09.md
new/rl-tf/09.md
+8
-8
new/rl-tf/10.md
new/rl-tf/10.md
+3
-3
未找到文件。
new/rl-tf/07.md
浏览文件 @
1b4e32a0
...
...
@@ -18,7 +18,7 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游
实时策略游戏的特性使传统的规划方法效率低下,如下所示:
*
高
尺寸和
连续动作空间
*
高
维
连续动作空间
*
高维连续状态空间
*
环境是不确定的
*
该环境是部分可观察的,玩家只能感知该环境的一部分(即游戏地图/世界)
...
...
@@ -38,11 +38,11 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游
基于案例的推理包括四个步骤:
*
取回
*
检索
*
重用
*
修
改
*
修
订
*
保留
...
...
@@ -69,11 +69,11 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游
所有先前方法效率低下的原因在于,决策是实时进行的,其中状态动作空间巨大且连续。 先前的方法在有限的条件下是有效的,因为它们不能满足以下所有条件:
*
高维状态
作用
空间
*
高维状态
动作
空间
*
对抗环境
*
部分可观察的环境
*
随机环境
*
即时
的
*
即时
为了覆盖较大的状态操作空间,解决方案库中将需要大量规则。 此外,没有探索策略可以找到最佳解决方案。 因此,由于所有前面提到的与实时策略游戏相关的问题和复杂性,这些传统的 AI 方法很难实现。
...
...
new/rl-tf/08.md
浏览文件 @
1b4e32a0
...
...
@@ -13,7 +13,7 @@
*
保护地球
*
应对气候变化
*
和平与正义
*
做得好
*
好的工作
*
经济增长
*
解决水危机
...
...
@@ -38,7 +38,7 @@
围棋游戏起源于中国大约 3000 年前。 游戏规则很简单,如下所示:
*
围棋是一款两人游戏
*
默认
电路板
尺寸为
`19x19`
行
*
默认
棋盘
尺寸为
`19x19`
行
*
一个玩家放置一块黑色的石头,而另一玩家放置一块白色的石头
*
目标是包围对手的石头,并覆盖棋盘上的大部分空白区域
...
...
@@ -84,9 +84,9 @@ DeepBlue 搜索国际象棋的游戏树到最低深度(因为不可能创建
# AlphaGo –精通围棋
在围棋的情况下,基于搜索树覆盖所有可能位置的传统 AI 方法会失败。 原因是由于
`2.08 x 10^170 `
可能的移动以及因此而难以评估每个可能的
电路板
位置的强度,因此搜索空间极其巨大。 因此,传统的蛮力方法在围棋的巨大搜索空间中失败了。
在围棋的情况下,基于搜索树覆盖所有可能位置的传统 AI 方法会失败。 原因是由于
`2.08 x 10^170 `
可能的移动以及因此而难以评估每个可能的
棋盘
位置的强度,因此搜索空间极其巨大。 因此,传统的蛮力方法在围棋的巨大搜索空间中失败了。
因此,高级树搜索(例如具有深度神经网络的蒙特卡罗树搜索)被认为是捕捉人类用来玩围棋游戏的直觉的新颖方法。 这些神经网络是
**卷积神经网络**
(
**CNN**
),并为
电路板拍摄图像,即电路板
的描述,并通过一系列层激活它以找到最佳的 根据游戏的给定状态移动。
因此,高级树搜索(例如具有深度神经网络的蒙特卡罗树搜索)被认为是捕捉人类用来玩围棋游戏的直觉的新颖方法。 这些神经网络是
**卷积神经网络**
(
**CNN**
),并为
棋盘拍摄图像,即棋盘
的描述,并通过一系列层激活它以找到最佳的 根据游戏的给定状态移动。
AlphaGo 的架构中使用了两个神经网络,分别是:
...
...
@@ -185,7 +185,7 @@ Google DeepMind 已经开始使用 AlphaGo Zero 来了解蛋白质折叠,因
与先前版本的 AlphaGo 相比有五处变化。 它们如下:
*
完全从自我游戏中训练,这不是人类专家的游戏数据,而是从头开始学习一切。 较早的版本监督学习策略网络,该网络经过专家游戏训练。
*
没有手工制作的
功能
。
*
没有手工制作的
特征
。
*
用残差卷积架构替换了普通卷积架构。
*
AlphaGo Zero 并没有将其单独的策略和值网络,而是将它们两者合并为一个大型网络。
*
简化了蒙特卡洛树搜索,该搜索使用此大型神经网络进行仿真。
...
...
new/rl-tf/09.md
浏览文件 @
1b4e32a0
...
...
@@ -13,7 +13,7 @@
*
传感器融合(传感器可以是相机,LIDAR,RADAR,GPS 等)
*
对象检测与分类
*
车辆路径规划-采取哪种操作,例如向左或向右转向,加速或制动,以及更多取决于:
*
不同类型的演习
*
操作的不同类型
*
操作的复杂性
# 自动驾驶中的机器学习
...
...
@@ -36,11 +36,11 @@
*
换道时超车
*
交通拥堵
*
合并高速公路
*
高速公路分
歧
*
缩小车道
*
高速公路合并
*
高速公路分
叉
*
车道缩小
*
在红色交通信号灯处停车
*
停在停车标志
*
在停车标志处停在
*
放慢速度限制标志
*
在建筑或事故现场附近行驶时改变路线或安全驾驶
*
道路交叉口
...
...
@@ -169,10 +169,10 @@ DeepTraffic 环境的四个视角:模拟,占用网格,防撞系统以及
DeepTraffic 由一条高速公路带组成,该高速公路带显示了同时行驶的七个车道和二十辆汽车(请参见上图的第一列),其时速限制为 80 mph(不允许任何车子超过该限制)。 DeepTraffic 是现实公路场景的简化模拟表示。 此模拟的重点只是学习交通繁忙时的有效运动方式。 所有汽车均可从以下五种动作中进行选择:
*
车道向左
改变
*
车道向左
转
*
车道向右转
*
加速
中
*
减速
中
*
加速
*
减速
*
没做什么
对于其他汽车,将按照现实的模式随机选择动作,例如,由于随机选择动作,不会太频繁地改变车道。 以红色(深灰色)显示的汽车由深度强化学习代理控制。 竞争对手获得以 DQN 实现的预定义神经网络。 任务是配置不同的超参数并获得最佳性能,即最高平均速度。
...
...
new/rl-tf/10.md
浏览文件 @
1b4e32a0
...
...
@@ -54,7 +54,7 @@
*
介绍
*
问题定义
*
资料
准备
*
数据
准备
*
强化学习
*
进一步的改进
...
...
@@ -81,7 +81,7 @@ EIIE 通过**在线随机批量学习**(**OSBL**)进行训练,其中强化
*
开盘价
*
最高价
*
最低价
格
*
最低价
*
收盘价
对于连续市场(例如我们的测试用例),资产在
`t`
期间的开盘价是其在前一时期
`t-1`
的收盘价。 投资组合由
`m`
个资产组成。 在时间段
`t`
中,所有
`m`
资产的收盘价都创建了价格向量!
[](
img/bbb31a02-f108-4331-8fa0-769b24ae6ed6.png
)
。 因此,!
[](
img/ceb658b2-d2d3-40d8-862b-90030863c9e9.png
)
的!
[](
img/49f29652-be4c-4277-99bf-aac6fa0908c5.png
)
元素即!
[](
img/cebf0414-d4f0-4ccb-a1e2-9ceaf7c9e371.png
)
是该!
[](
img/819e2605-a4e4-4983-a172-a572657cba70.png
)
时间段内!
[](
img/fb0f46f7-d5f7-4646-8688-5eaa57f7fac4.png
)
资产的收盘价。
...
...
@@ -137,7 +137,7 @@ EIIE 通过**在线随机批量学习**(**OSBL**)进行训练,其中强化
*
`m`
是预选的非现金资产的数量
*
`n`
是
`t`
之前的输入周期数(此处
`n = 50`
)
*
`f = 3`
是
功能编号
*
`f = 3`
是
特征数量
由于
`n = 50`
,即输入周期数为 50,每个周期为 30 分钟,因此总时间
`= 30 * 50 min = 1500 min = 25 h`
。 时间段
`t`
上资产
`i`
的特征是其在时间段
`t`
中的收盘价,最高价和最低价。 价格矩阵不直接输入到神经网络。 价格变化决定了投资组合管理的绩效。 输入张量中的所有价格将由最新收盘价标准化,如下所示:
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录