2021-01-22 11:14:46

1b4e32a0 · wizardforcel · e5b788ad · 1b4e32a0 · 1b4e32a0 · 1b4e32a0
隐藏空白更改
内联并排

Showing with 21 addition and 21 deletion

new/rl-tf/07.md new/rl-tf/07.md +5 -5

new/rl-tf/08.md new/rl-tf/08.md +5 -5

new/rl-tf/09.md new/rl-tf/09.md +8 -8

new/rl-tf/10.md new/rl-tf/10.md +3 -3

未找到文件。
--- a/new/rl-tf/07.md
+++ b/new/rl-tf/07.md
@@ -18,7 +18,7 @@ Brett Sperry 首先使用术语**实时策略**（**RTS**）作为宣传其游

 实时策略游戏的特性使传统的规划方法效率低下，如下所示：

-*   高尺寸和连续动作空间
+*   高维连续动作空间
 *   高维连续状态空间
 *   环境是不确定的
 *   该环境是部分可观察的，玩家只能感知该环境的一部分（即游戏地图/世界）
@@ -38,11 +38,11 @@ Brett Sperry 首先使用术语**实时策略**（**RTS**）作为宣传其游

 基于案例的推理包括四个步骤：

-*   取回
+*   检索

 *   重用

-*   修改
+*   修订

 *   保留

@@ -69,11 +69,11 @@ Brett Sperry 首先使用术语**实时策略**（**RTS**）作为宣传其游

 所有先前方法效率低下的原因在于，决策是实时进行的，其中状态动作空间巨大且连续。 先前的方法在有限的条件下是有效的，因为它们不能满足以下所有条件：

-*   高维状态作用空间
+*   高维状态动作空间
 *   对抗环境
 *   部分可观察的环境
 *   随机环境
-*   即时的
+*   即时

 为了覆盖较大的状态操作空间，解决方案库中将需要大量规则。 此外，没有探索策略可以找到最佳解决方案。 因此，由于所有前面提到的与实时策略游戏相关的问题和复杂性，这些传统的 AI 方法很难实现。


--- a/new/rl-tf/08.md
+++ b/new/rl-tf/08.md
@@ -13,7 +13,7 @@
 *   保护地球
 *   应对气候变化
 *   和平与正义
-*   做得好
+*   好的工作
 *   经济增长
 *   解决水危机

@@ -38,7 +38,7 @@
 围棋游戏起源于中国大约 3000 年前。 游戏规则很简单，如下所示：

 *   围棋是一款两人游戏
-*   默认电路板尺寸为`19x19`行
+*   默认棋盘尺寸为`19x19`行
 *   一个玩家放置一块黑色的石头，而另一玩家放置一块白色的石头
 *   目标是包围对手的石头，并覆盖棋盘上的大部分空白区域

@@ -84,9 +84,9 @@ DeepBlue 搜索国际象棋的游戏树到最低深度（因为不可能创建

 # AlphaGo –精通围棋

-在围棋的情况下，基于搜索树覆盖所有可能位置的传统 AI 方法会失败。 原因是由于`2.08 x 10^170 `可能的移动以及因此而难以评估每个可能的电路板位置的强度，因此搜索空间极其巨大。 因此，传统的蛮力方法在围棋的巨大搜索空间中失败了。
+在围棋的情况下，基于搜索树覆盖所有可能位置的传统 AI 方法会失败。 原因是由于`2.08 x 10^170 `可能的移动以及因此而难以评估每个可能的棋盘位置的强度，因此搜索空间极其巨大。 因此，传统的蛮力方法在围棋的巨大搜索空间中失败了。

-因此，高级树搜索（例如具有深度神经网络的蒙特卡罗树搜索）被认为是捕捉人类用来玩围棋游戏的直觉的新颖方法。 这些神经网络是**卷积神经网络**（**CNN**），并为电路板拍摄图像，即电路板的描述，并通过一系列层激活它以找到最佳的 根据游戏的给定状态移动。
+因此，高级树搜索（例如具有深度神经网络的蒙特卡罗树搜索）被认为是捕捉人类用来玩围棋游戏的直觉的新颖方法。 这些神经网络是**卷积神经网络**（**CNN**），并为棋盘拍摄图像，即棋盘的描述，并通过一系列层激活它以找到最佳的 根据游戏的给定状态移动。

 AlphaGo 的架构中使用了两个神经网络，分别是：

@@ -185,7 +185,7 @@ Google DeepMind 已经开始使用 AlphaGo Zero 来了解蛋白质折叠，因
 与先前版本的 AlphaGo 相比有五处变化。 它们如下：

 *   完全从自我游戏中训练，这不是人类专家的游戏数据，而是从头开始学习一切。 较早的版本监督学习策略网络，该网络经过专家游戏训练。
-*   没有手工制作的功能。
+*   没有手工制作的特征。
 *   用残差卷积架构替换了普通卷积架构。
 *   AlphaGo Zero 并没有将其单独的策略和值网络，而是将它们两者合并为一个大型网络。
 *   简化了蒙特卡洛树搜索，该搜索使用此大型神经网络进行仿真。

--- a/new/rl-tf/09.md
+++ b/new/rl-tf/09.md
@@ -13,7 +13,7 @@
 *   传感器融合（传感器可以是相机，LIDAR，RADAR，GPS 等）
 *   对象检测与分类
 *   车辆路径规划-采取哪种操作，例如向左或向右转向，加速或制动，以及更多取决于：
-    *   不同类型的演习
+    *   操作的不同类型
    *   操作的复杂性

 # 自动驾驶中的机器学习
@@ -36,11 +36,11 @@

 *   换道时超车
 *   交通拥堵
-*   合并高速公路
-*   高速公路分歧
-*   缩小车道
+*   高速公路合并
+*   高速公路分叉
+*   车道缩小
 *   在红色交通信号灯处停车
-*   停在停车标志
+*   在停车标志处停在
 *   放慢速度限制标志
 *   在建筑或事故现场附近行驶时改变路线或安全驾驶
 *   道路交叉口
@@ -169,10 +169,10 @@ DeepTraffic 环境的四个视角：模拟，占用网格，防撞系统以及

 DeepTraffic 由一条高速公路带组成，该高速公路带显示了同时行驶的七个车道和二十辆汽车（请参见上图的第一列），其时速限制为 80 mph（不允许任何车子超过该限制）。 DeepTraffic 是现实公路场景的简化模拟表示。 此模拟的重点只是学习交通繁忙时的有效运动方式。 所有汽车均可从以下五种动作中进行选择：

-*   车道向左改变
+*   车道向左转
 *   车道向右转
-*   加速中
-*   减速中
+*   加速
+*   减速
 *   没做什么

 对于其他汽车，将按照现实的模式随机选择动作，例如，由于随机选择动作，不会太频繁地改变车道。 以红色（深灰色）显示的汽车由深度强化学习代理控制。 竞争对手获得以 DQN 实现的预定义神经网络。 任务是配置不同的超参数并获得最佳性能，即最高平均速度。

--- a/new/rl-tf/10.md
+++ b/new/rl-tf/10.md
@@ -54,7 +54,7 @@

 *   介绍
 *   问题定义
-*   资料准备
+*   数据准备
 *   强化学习
 *   进一步的改进

@@ -81,7 +81,7 @@ EIIE 通过**在线随机批量学习**（**OSBL**）进行训练，其中强化

 *   开盘价
 *   最高价
-*   最低价格
+*   最低价
 *   收盘价

 对于连续市场（例如我们的测试用例），资产在`t`期间的开盘价是其在前一时期`t-1`的收盘价。 投资组合由`m`个资产组成。 在时间段`t`中，所有`m`资产的收盘价都创建了价格向量![](img/bbb31a02-f108-4331-8fa0-769b24ae6ed6.png)。 因此，![](img/ceb658b2-d2d3-40d8-862b-90030863c9e9.png)的![](img/49f29652-be4c-4277-99bf-aac6fa0908c5.png)元素即![](img/cebf0414-d4f0-4ccb-a1e2-9ceaf7c9e371.png)是该![](img/819e2605-a4e4-4983-a172-a572657cba70.png)时间段内![](img/fb0f46f7-d5f7-4646-8688-5eaa57f7fac4.png)资产的收盘价。
@@ -137,7 +137,7 @@ EIIE 通过**在线随机批量学习**（**OSBL**）进行训练，其中强化

 *  `m`是预选的非现金资产的数量
 *  `n`是`t`之前的输入周期数（此处`n = 50`）
-*   `f = 3`是功能编号
+*   `f = 3`是特征数量

 由于`n = 50`，即输入周期数为 50，每个周期为 30 分钟，因此总时间`= 30 * 50 min = 1500 min = 25 h`。 时间段`t`上资产`i`的特征是其在时间段`t`中的收盘价，最高价和最低价。 价格矩阵不直接输入到神经网络。 价格变化决定了投资组合管理的绩效。 输入张量中的所有价格将由最新收盘价标准化，如下所示：