diff --git a/new/rl-tf/07.md b/new/rl-tf/07.md index ad8b0a771a27747d6d175879d082382315686801..59d989a144ea028373d347a73afdb6f3cb49e7e9 100644 --- a/new/rl-tf/07.md +++ b/new/rl-tf/07.md @@ -18,7 +18,7 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游 实时策略游戏的特性使传统的规划方法效率低下,如下所示: -* 高尺寸和连续动作空间 +* 高维连续动作空间 * 高维连续状态空间 * 环境是不确定的 * 该环境是部分可观察的,玩家只能感知该环境的一部分(即游戏地图/世界) @@ -38,11 +38,11 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游 基于案例的推理包括四个步骤: -* 取回 +* 检索 * 重用 -* 修改 +* 修订 * 保留 @@ -69,11 +69,11 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游 所有先前方法效率低下的原因在于,决策是实时进行的,其中状态动作空间巨大且连续。 先前的方法在有限的条件下是有效的,因为它们不能满足以下所有条件: -* 高维状态作用空间 +* 高维状态动作空间 * 对抗环境 * 部分可观察的环境 * 随机环境 -* 即时的 +* 即时 为了覆盖较大的状态操作空间,解决方案库中将需要大量规则。 此外,没有探索策略可以找到最佳解决方案。 因此,由于所有前面提到的与实时策略游戏相关的问题和复杂性,这些传统的 AI 方法很难实现。 diff --git a/new/rl-tf/08.md b/new/rl-tf/08.md index c8f7e3c18131fa6bf0a00e42aff3de26966f8cb7..3e7e8c4a758b8572663e1e98032a64c679721cf6 100644 --- a/new/rl-tf/08.md +++ b/new/rl-tf/08.md @@ -13,7 +13,7 @@ * 保护地球 * 应对气候变化 * 和平与正义 -* 做得好 +* 好的工作 * 经济增长 * 解决水危机 @@ -38,7 +38,7 @@ 围棋游戏起源于中国大约 3000 年前。 游戏规则很简单,如下所示: * 围棋是一款两人游戏 -* 默认电路板尺寸为`19x19`行 +* 默认棋盘尺寸为`19x19`行 * 一个玩家放置一块黑色的石头,而另一玩家放置一块白色的石头 * 目标是包围对手的石头,并覆盖棋盘上的大部分空白区域 @@ -84,9 +84,9 @@ DeepBlue 搜索国际象棋的游戏树到最低深度(因为不可能创建 # AlphaGo –精通围棋 -在围棋的情况下,基于搜索树覆盖所有可能位置的传统 AI 方法会失败。 原因是由于`2.08 x 10^170 `可能的移动以及因此而难以评估每个可能的电路板位置的强度,因此搜索空间极其巨大。 因此,传统的蛮力方法在围棋的巨大搜索空间中失败了。 +在围棋的情况下,基于搜索树覆盖所有可能位置的传统 AI 方法会失败。 原因是由于`2.08 x 10^170 `可能的移动以及因此而难以评估每个可能的棋盘位置的强度,因此搜索空间极其巨大。 因此,传统的蛮力方法在围棋的巨大搜索空间中失败了。 -因此,高级树搜索(例如具有深度神经网络的蒙特卡罗树搜索)被认为是捕捉人类用来玩围棋游戏的直觉的新颖方法。 这些神经网络是**卷积神经网络**(**CNN**),并为电路板拍摄图像,即电路板的描述,并通过一系列层激活它以找到最佳的 根据游戏的给定状态移动。 +因此,高级树搜索(例如具有深度神经网络的蒙特卡罗树搜索)被认为是捕捉人类用来玩围棋游戏的直觉的新颖方法。 这些神经网络是**卷积神经网络**(**CNN**),并为棋盘拍摄图像,即棋盘的描述,并通过一系列层激活它以找到最佳的 根据游戏的给定状态移动。 AlphaGo 的架构中使用了两个神经网络,分别是: @@ -185,7 +185,7 @@ Google DeepMind 已经开始使用 AlphaGo Zero 来了解蛋白质折叠,因 与先前版本的 AlphaGo 相比有五处变化。 它们如下: * 完全从自我游戏中训练,这不是人类专家的游戏数据,而是从头开始学习一切。 较早的版本监督学习策略网络,该网络经过专家游戏训练。 -* 没有手工制作的功能。 +* 没有手工制作的特征。 * 用残差卷积架构替换了普通卷积架构。 * AlphaGo Zero 并没有将其单独的策略和值网络,而是将它们两者合并为一个大型网络。 * 简化了蒙特卡洛树搜索,该搜索使用此大型神经网络进行仿真。 diff --git a/new/rl-tf/09.md b/new/rl-tf/09.md index bdaba2cc1e604cba0d2dbff5529c3c0d1ee09a27..3edaa84ce7d55dd2c9fc5bf91020aa715691fa05 100644 --- a/new/rl-tf/09.md +++ b/new/rl-tf/09.md @@ -13,7 +13,7 @@ * 传感器融合(传感器可以是相机,LIDAR,RADAR,GPS 等) * 对象检测与分类 * 车辆路径规划-采取哪种操作,例如向左或向右转向,加速或制动,以及更多取决于: - * 不同类型的演习 + * 操作的不同类型 * 操作的复杂性 # 自动驾驶中的机器学习 @@ -36,11 +36,11 @@ * 换道时超车 * 交通拥堵 -* 合并高速公路 -* 高速公路分歧 -* 缩小车道 +* 高速公路合并 +* 高速公路分叉 +* 车道缩小 * 在红色交通信号灯处停车 -* 停在停车标志 +* 在停车标志处停在 * 放慢速度限制标志 * 在建筑或事故现场附近行驶时改变路线或安全驾驶 * 道路交叉口 @@ -169,10 +169,10 @@ DeepTraffic 环境的四个视角:模拟,占用网格,防撞系统以及 DeepTraffic 由一条高速公路带组成,该高速公路带显示了同时行驶的七个车道和二十辆汽车(请参见上图的第一列),其时速限制为 80 mph(不允许任何车子超过该限制)。 DeepTraffic 是现实公路场景的简化模拟表示。 此模拟的重点只是学习交通繁忙时的有效运动方式。 所有汽车均可从以下五种动作中进行选择: -* 车道向左改变 +* 车道向左转 * 车道向右转 -* 加速中 -* 减速中 +* 加速 +* 减速 * 没做什么 对于其他汽车,将按照现实的模式随机选择动作,例如,由于随机选择动作,不会太频繁地改变车道。 以红色(深灰色)显示的汽车由深度强化学习代理控制。 竞争对手获得以 DQN 实现的预定义神经网络。 任务是配置不同的超参数并获得最佳性能,即最高平均速度。 diff --git a/new/rl-tf/10.md b/new/rl-tf/10.md index 8986b1311ff24680fd594112362c7853aa0291e3..3cc7683894882bed7ccededb16803b437f2f4aba 100644 --- a/new/rl-tf/10.md +++ b/new/rl-tf/10.md @@ -54,7 +54,7 @@ * 介绍 * 问题定义 -* 资料准备 +* 数据准备 * 强化学习 * 进一步的改进 @@ -81,7 +81,7 @@ EIIE 通过**在线随机批量学习**(**OSBL**)进行训练,其中强化 * 开盘价 * 最高价 -* 最低价格 +* 最低价 * 收盘价 对于连续市场(例如我们的测试用例),资产在`t`期间的开盘价是其在前一时期`t-1`的收盘价。 投资组合由`m`个资产组成。 在时间段`t`中,所有`m`资产的收盘价都创建了价格向量![](img/bbb31a02-f108-4331-8fa0-769b24ae6ed6.png)。 因此,![](img/ceb658b2-d2d3-40d8-862b-90030863c9e9.png)的![](img/49f29652-be4c-4277-99bf-aac6fa0908c5.png)元素即![](img/cebf0414-d4f0-4ccb-a1e2-9ceaf7c9e371.png)是该![](img/819e2605-a4e4-4983-a172-a572657cba70.png)时间段内![](img/fb0f46f7-d5f7-4646-8688-5eaa57f7fac4.png)资产的收盘价。 @@ -137,7 +137,7 @@ EIIE 通过**在线随机批量学习**(**OSBL**)进行训练,其中强化 * `m`是预选的非现金资产的数量 * `n`是`t`之前的输入周期数(此处`n = 50`) -* `f = 3`是功能编号 +* `f = 3`是特征数量 由于`n = 50`,即输入周期数为 50,每个周期为 30 分钟,因此总时间`= 30 * 50 min = 1500 min = 25 h`。 时间段`t`上资产`i`的特征是其在时间段`t`中的收盘价,最高价和最低价。 价格矩阵不直接输入到神经网络。 价格变化决定了投资组合管理的绩效。 输入张量中的所有价格将由最新收盘价标准化,如下所示: