提交 1b4e32a0 编写于 作者: W wizardforcel

2021-01-22 11:14:46

上级 e5b788ad
......@@ -18,7 +18,7 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游
实时策略游戏的特性使传统的规划方法效率低下,如下所示:
*尺寸和连续动作空间
*连续动作空间
* 高维连续状态空间
* 环境是不确定的
* 该环境是部分可观察的,玩家只能感知该环境的一部分(即游戏地图/世界)
......@@ -38,11 +38,11 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游
基于案例的推理包括四个步骤:
* 取回
* 检索
* 重用
*
*
* 保留
......@@ -69,11 +69,11 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游
所有先前方法效率低下的原因在于,决策是实时进行的,其中状态动作空间巨大且连续。 先前的方法在有限的条件下是有效的,因为它们不能满足以下所有条件:
* 高维状态作用空间
* 高维状态动作空间
* 对抗环境
* 部分可观察的环境
* 随机环境
* 即时
* 即时
为了覆盖较大的状态操作空间,解决方案库中将需要大量规则。 此外,没有探索策略可以找到最佳解决方案。 因此,由于所有前面提到的与实时策略游戏相关的问题和复杂性,这些传统的 AI 方法很难实现。
......
......@@ -13,7 +13,7 @@
* 保护地球
* 应对气候变化
* 和平与正义
* 做得好
* 好的工作
* 经济增长
* 解决水危机
......@@ -38,7 +38,7 @@
围棋游戏起源于中国大约 3000 年前。 游戏规则很简单,如下所示:
* 围棋是一款两人游戏
* 默认电路板尺寸为`19x19`
* 默认棋盘尺寸为`19x19`
* 一个玩家放置一块黑色的石头,而另一玩家放置一块白色的石头
* 目标是包围对手的石头,并覆盖棋盘上的大部分空白区域
......@@ -84,9 +84,9 @@ DeepBlue 搜索国际象棋的游戏树到最低深度(因为不可能创建
# AlphaGo –精通围棋
在围棋的情况下,基于搜索树覆盖所有可能位置的传统 AI 方法会失败。 原因是由于`2.08 x 10^170 `可能的移动以及因此而难以评估每个可能的电路板位置的强度,因此搜索空间极其巨大。 因此,传统的蛮力方法在围棋的巨大搜索空间中失败了。
在围棋的情况下,基于搜索树覆盖所有可能位置的传统 AI 方法会失败。 原因是由于`2.08 x 10^170 `可能的移动以及因此而难以评估每个可能的棋盘位置的强度,因此搜索空间极其巨大。 因此,传统的蛮力方法在围棋的巨大搜索空间中失败了。
因此,高级树搜索(例如具有深度神经网络的蒙特卡罗树搜索)被认为是捕捉人类用来玩围棋游戏的直觉的新颖方法。 这些神经网络是**卷积神经网络****CNN**),并为电路板拍摄图像,即电路板的描述,并通过一系列层激活它以找到最佳的 根据游戏的给定状态移动。
因此,高级树搜索(例如具有深度神经网络的蒙特卡罗树搜索)被认为是捕捉人类用来玩围棋游戏的直觉的新颖方法。 这些神经网络是**卷积神经网络****CNN**),并为棋盘拍摄图像,即棋盘的描述,并通过一系列层激活它以找到最佳的 根据游戏的给定状态移动。
AlphaGo 的架构中使用了两个神经网络,分别是:
......@@ -185,7 +185,7 @@ Google DeepMind 已经开始使用 AlphaGo Zero 来了解蛋白质折叠,因
与先前版本的 AlphaGo 相比有五处变化。 它们如下:
* 完全从自我游戏中训练,这不是人类专家的游戏数据,而是从头开始学习一切。 较早的版本监督学习策略网络,该网络经过专家游戏训练。
* 没有手工制作的功能
* 没有手工制作的特征
* 用残差卷积架构替换了普通卷积架构。
* AlphaGo Zero 并没有将其单独的策略和值网络,而是将它们两者合并为一个大型网络。
* 简化了蒙特卡洛树搜索,该搜索使用此大型神经网络进行仿真。
......
......@@ -13,7 +13,7 @@
* 传感器融合(传感器可以是相机,LIDAR,RADAR,GPS 等)
* 对象检测与分类
* 车辆路径规划-采取哪种操作,例如向左或向右转向,加速或制动,以及更多取决于:
* 不同类型的演习
* 操作的不同类型
* 操作的复杂性
# 自动驾驶中的机器学习
......@@ -36,11 +36,11 @@
* 换道时超车
* 交通拥堵
* 合并高速公路
* 高速公路分
* 缩小车道
* 高速公路合并
* 高速公路分
* 车道缩小
* 在红色交通信号灯处停车
* 停在停车标志
* 在停车标志处停在
* 放慢速度限制标志
* 在建筑或事故现场附近行驶时改变路线或安全驾驶
* 道路交叉口
......@@ -169,10 +169,10 @@ DeepTraffic 环境的四个视角:模拟,占用网格,防撞系统以及
DeepTraffic 由一条高速公路带组成,该高速公路带显示了同时行驶的七个车道和二十辆汽车(请参见上图的第一列),其时速限制为 80 mph(不允许任何车子超过该限制)。 DeepTraffic 是现实公路场景的简化模拟表示。 此模拟的重点只是学习交通繁忙时的有效运动方式。 所有汽车均可从以下五种动作中进行选择:
* 车道向左改变
* 车道向左
* 车道向右转
* 加速
* 减速
* 加速
* 减速
* 没做什么
对于其他汽车,将按照现实的模式随机选择动作,例如,由于随机选择动作,不会太频繁地改变车道。 以红色(深灰色)显示的汽车由深度强化学习代理控制。 竞争对手获得以 DQN 实现的预定义神经网络。 任务是配置不同的超参数并获得最佳性能,即最高平均速度。
......
......@@ -54,7 +54,7 @@
* 介绍
* 问题定义
* 资料准备
* 数据准备
* 强化学习
* 进一步的改进
......@@ -81,7 +81,7 @@ EIIE 通过**在线随机批量学习**(**OSBL**)进行训练,其中强化
* 开盘价
* 最高价
* 最低价
* 最低价
* 收盘价
对于连续市场(例如我们的测试用例),资产在`t`期间的开盘价是其在前一时期`t-1`的收盘价。 投资组合由`m`个资产组成。 在时间段`t`中,所有`m`资产的收盘价都创建了价格向量![](img/bbb31a02-f108-4331-8fa0-769b24ae6ed6.png)。 因此,![](img/ceb658b2-d2d3-40d8-862b-90030863c9e9.png)的![](img/49f29652-be4c-4277-99bf-aac6fa0908c5.png)元素即![](img/cebf0414-d4f0-4ccb-a1e2-9ceaf7c9e371.png)是该![](img/819e2605-a4e4-4983-a172-a572657cba70.png)时间段内![](img/fb0f46f7-d5f7-4646-8688-5eaa57f7fac4.png)资产的收盘价。
......@@ -137,7 +137,7 @@ EIIE 通过**在线随机批量学习**(**OSBL**)进行训练,其中强化
* `m`是预选的非现金资产的数量
* `n``t`之前的输入周期数(此处`n = 50`
* `f = 3`功能编号
* `f = 3`特征数量
由于`n = 50`,即输入周期数为 50,每个周期为 30 分钟,因此总时间`= 30 * 50 min = 1500 min = 25 h`。 时间段`t`上资产`i`的特征是其在时间段`t`中的收盘价,最高价和最低价。 价格矩阵不直接输入到神经网络。 价格变化决定了投资组合管理的绩效。 输入张量中的所有价格将由最新收盘价标准化,如下所示:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册