From 91982700c4b8733183238311170b60a1a1a210d9 Mon Sep 17 00:00:00 2001 From: wizardforcel <562826179@qq.com> Date: Sat, 23 Jan 2021 23:18:45 +0800 Subject: [PATCH] 2021-01-23 23:18:45 --- new/rl-tf/08.md | 2 +- new/rl-tf/09.md | 4 ++-- new/rl-tf/10.md | 4 ++-- new/rl-tf/11.md | 2 +- new/rl-tf/12.md | 8 ++++---- new/rl-tf/14.md | 8 ++++---- 6 files changed, 14 insertions(+), 14 deletions(-) diff --git a/new/rl-tf/08.md b/new/rl-tf/08.md index 1a99aedc..01d954bf 100644 --- a/new/rl-tf/08.md +++ b/new/rl-tf/08.md @@ -172,7 +172,7 @@ AlphaGo Zero 背后最重要的想法是,它完全从空白状态(即清晰 Tabula rasa 学习对于任何 AI 代理都是非常重要的,因为如果有一个代理已实现 Tabula rasa 学习,则可以将其从围棋游戏移植到其他域环境(可能是其他任何游戏)。 Tabula rasa 学习将代理与其所在领域的具体情况脱钩,并尝试开发一种算法,该算法足够通用,可以学习以实现与该环境相关的目标,并且可以在任何地方应用。 -AlphaGo 项目背后的目标不是击败最佳的人类围棋选手,而是发现学习和做科学的意义以及对于计算机程序学习知识和直觉本质的意义。 AlphaGo Zero 不仅重新发现了人类倾向于玩的常见模式和空缺,还通过自行弄清它们来学习它们,并且还抛弃了许多已知的人类移动,而是优先选择了在数百万游戏中发现的更好的移动 数天之久。 这些更好的举动甚至是人类所不知道的。 +AlphaGo 项目背后的目标不是击败最佳的人类围棋选手,而是发现学习和做科学的意义以及对于计算机程序学习知识和直觉本质的意义。 AlphaGo Zero 不仅重新发现了人类倾向于玩的常见模式和空缺,还通过自行弄清它们来学习它们,并且还抛弃了许多已知的人类移动,而是优先选择了在数百万游戏中在数天之内发现的更好的移动。 这些更好的举动甚至是人类所不知道的。 在短时间内,AlphaGo Zero 可以理解人类在数千年的游戏过程中积累的所有围棋知识。 AlphaGo Zero 本身发现了大部分知识,并发现了人类围棋玩家尚未发现的大多数举动。 因此,除了比人类更快地适应知识之外,它还开发了新的知识,即知识创造,因此这种成就在许多方面被认为是新颖的。 diff --git a/new/rl-tf/09.md b/new/rl-tf/09.md index 4b7b9e67..e6fe5947 100644 --- a/new/rl-tf/09.md +++ b/new/rl-tf/09.md @@ -22,7 +22,7 @@ ![](img/bad5916e-6b8d-4826-825e-0597efc5954d.png) -如上图所示,该过程的第一步是传感器数据的收集。 传感器包括摄像头,LIDAR,IMU,RADAR,GPS,CAN 和更多其他设备,这些设备可以以最佳方式捕获车辆状态以及周围环境。 收到这些感官信号后,将对它们进行预处理,汇总,然后准备发送到下一个过程,包括**机器学习**(**ML**)和数据中心分析。 在准备好的感觉信号上执行 ML 的这一步骤是关键部分,它涉及从输入数据进行状态估计,从而对其进行建模,预测可能的未来动作,最后根据预测的输出进行计划,即哪个动作 从而使整体奖励最大化。 +如上图所示,该过程的第一步是传感器数据的收集。 传感器包括摄像头,LIDAR,IMU,RADAR,GPS,CAN 和更多其他设备,这些设备可以以最佳方式捕获车辆状态以及周围环境。 收到这些感官信号后,将对它们进行预处理,汇总,然后准备发送到下一个过程,包括**机器学习**(**ML**)和数据中心分析。 在准备好的感觉信号上执行 ML 的这一步骤是关键部分,它涉及从输入数据进行状态估计,从而对其进行建模,预测可能的未来动作,最后根据预测的输出进行计划,即执行哪个动作从而使整体奖励最大化。 涉及自动驾驶时,ML 可以用于不同的任务。 它们主要是以下内容: @@ -165,7 +165,7 @@ ![](img/9a9a574c-58d9-4843-ae56-952f31d006c3.png) -DeepTraffic 环境的四个视角:模拟,占用网格,防撞系统以及代表增强学习*状态*的占用网格的一部分,策略网络可基于此学习估计期望的奖励 通过采取五种可用操作中的每一项来接收。(DeepTraffic:Fridman 等人在[这个页面](https://arxiv.org/pdf/1801.02805.pdf)上进行的具有深度强化学习的密集交通快速驾驶)。 +DeepTraffic 环境的四个视角:模拟,占用网格,防撞系统以及代表增强学习*状态*的占用网格的一部分,策略网络可基于此学习估计期望的奖励,通过采取五种可用操作中的每一项。(DeepTraffic:Fridman 等人在[这个页面](https://arxiv.org/pdf/1801.02805.pdf)上进行的具有深度强化学习的密集交通快速驾驶)。 DeepTraffic 由一条高速公路带组成,该高速公路带显示了同时行驶的七个车道和二十辆汽车(请参见上图的第一列),其时速限制为 80 mph(不允许任何车子超过该限制)。 DeepTraffic 是现实公路场景的简化模拟表示。 此模拟的重点只是学习交通繁忙时的有效运动方式。 所有汽车均可从以下五种动作中进行选择: diff --git a/new/rl-tf/10.md b/new/rl-tf/10.md index 122a9aec..76d74917 100644 --- a/new/rl-tf/10.md +++ b/new/rl-tf/10.md @@ -99,7 +99,7 @@ EIIE 通过**在线随机批量学习**(**OSBL**)进行训练,其中强化 ![](img/6f77290e-0f5f-4d51-a141-b0c16e69ce76.png) -这是时间段`t`中资产的收盘价和时间段`t-1`*中资产收盘价的按元素划分,换句话说,按元素划分 时间段`t`中资产的收盘价和开盘价的百分比。 因此,`y[t]`的元素是时间段`t`中单个资产的收盘价和开盘价之比。 **价格相对向量**用于计算一个时期内投资组合总价值的变化。 +这是时间段`t`中资产的收盘价和时间段`t-1`中资产收盘价的按元素划分,换句话说, 时间段`t`中资产的收盘价和开盘价的百分比。 因此,`y[t]`的元素是时间段`t`中单个资产的收盘价和开盘价之比。 **价格相对向量**用于计算一个时期内投资组合总价值的变化。 令时间段`t`开头的投资组合值为`p[t]`。 因此,忽略交易成本: @@ -115,7 +115,7 @@ EIIE 通过**在线随机批量学习**(**OSBL**)进行训练,其中强化 ![](img/782cc33c-1733-4019-8983-4aa994c0cdee.png) -初始投资组合权重向量`w[0]`表示进入市场之前,该金额是以交易货币(称为**现金**,此处现金为比特币)表示,因为初始投资金额为 以交易货币计。 由于金额是以交易货币为单位的,因此投资组合向量的第一个资产是指交易货币资产,因此: +初始投资组合权重向量`w[0]`表示进入市场之前,该金额是以交易货币(称为**现金**,此处现金为比特币)表示,因为初始投资金额以交易货币计算。 由于金额是以交易货币为单位的,因此投资组合向量的第一个资产是指交易货币资产,因此: ![](img/c206bb58-ca68-4265-b11b-46ed01e17d1b.png) diff --git a/new/rl-tf/11.md b/new/rl-tf/11.md index 12ad7d00..75679791 100644 --- a/new/rl-tf/11.md +++ b/new/rl-tf/11.md @@ -35,7 +35,7 @@ 在本书中,我们涵盖了从基础到高级的强化学习领域中的大多数算法。 因此,这些章节是理解机器人领域中不同算法所面临的应用和挑战的前提。 早期强化学习算法通过首先获取状态动作值,然后从中得出策略来处理获取最佳策略的问题。 然后,策略迭代方法出现了,直接用于输出优化的策略。 探索利用技术有助于完善现有策略,探索新措施并更新现有策略。 强化学习方法,例如 MDP(在第 3 章,“马尔可夫决策过程”中),其中需要采用转移模型的值迭代方法称为**基于模型的学习器**。 另一方面,诸如 Q 学习(在第 5 章,“Q 学习和深度 Q 网络”中)的算法不需要这种转移模型,因此也不需要任何预定义的策略。 他们被称为**无模型的脱离策略学习器**。 -在深度强化学习领域,行动值函数逼近器和策略函数逼近器在制定最先进的学习算法集方面发挥着关键作用。 策略搜索算法(例如策略梯度)旨在通过最大化期望的奖励总和来找到最佳策略,而使用行动值函数近似器(例如深度 Q 网络)的算法旨在通过最大化期望的总和来找到给定状态的行动值 奖励。 但是,在处理由高维和连续状态动作空间构成的环境时,性能上的差异在于,这最能描述机器人在其中运行的真实环境。 在这种情况下,策略搜索算法的性能会更好,因为它们在连续状态操作空间域中可以更好地工作: +在深度强化学习领域,行动值函数逼近器和策略函数逼近器在制定最先进的学习算法集方面发挥着关键作用。 策略搜索算法(例如策略梯度)旨在通过最大化期望的奖励总和来找到最佳策略,而使用行动值函数近似器(例如深度 Q 网络)的算法旨在通过最大化期望的总和,来找到给定状态和行动值的奖励。 但是,在处理由高维和连续状态动作空间构成的环境时,性能上的差异在于,这最能描述机器人在其中运行的真实环境。 在这种情况下,策略搜索算法的性能会更好,因为它们在连续状态操作空间域中可以更好地工作: ![](img/dbe76734-7904-4c3f-b486-17840eae3d22.png) diff --git a/new/rl-tf/12.md b/new/rl-tf/12.md index 86805d4a..5f778b31 100644 --- a/new/rl-tf/12.md +++ b/new/rl-tf/12.md @@ -2,7 +2,7 @@ 到目前为止,在讨论强化学习应用研究领域的单元中,我们看到了强化学习如何破坏机器人技术,自动驾驶,金融投资组合管理以及解决诸如围棋之类的极其复杂的游戏领域。 强化学习可能会破坏的另一个重要领域是广告技术。 -在深入了解问题陈述及其基于强化学习的解决方案之前,让我们了解所涉及的挑战,业务模型和投标策略,这将成为理解我们将尝试使用强化解决问题的基本前提 学习框架。 我们将在本章中介绍的主题如下: +在深入了解问题陈述及其基于强化学习的解决方案之前,让我们了解所涉及的挑战,业务模型和投标策略,这将成为理解我们将尝试使用强化学习框架解决问题的基本前提。 我们将在本章中介绍的主题如下: * 计算广告挑战和出价策略 @@ -36,7 +36,7 @@ * **CPC**:每次点击费用,**每次点击付费**(**PPC**) * 在这种类型的在线广告模型中,广告商向用户支付平台所有者对用户在广告链接上进行的每次点击操作的费用 * **CPA**:每次操作费用/每次获取费用/**每次获取费用**(**PPA**)/每次转化费用 - * 在这种类型的模型中,平台所有者(例如,运行广告的发布者)承担所有风险,而广告客户仅为已获得全部用户(换句话说,他们已经完成了可以 完成,注册订阅或进行购买交易 + * 在这种类型的模型中,平台所有者(例如,运行广告的发布者)承担所有风险,而广告客户仅为已获得全部用户(换句话说,他们已经完成了所需操作,注册订阅或购买交易)。 # 赞助搜索广告 @@ -65,13 +65,13 @@ * 这些智能体将使用历史市场数据并直接与市场参与者进行交互,并根据此数据对自己的行为进行建模,从而帮助制定不同的决策策略 * 使用强化学习的机器学习方法 - * 在第 3 章“Markov 决策过程”中可以看到**马尔可夫决策过程**(**MDP**)的框架,在该框架中,我们最大化了每个模型的预期效用 通过最大化预期奖励总和,最优化进入目标状态的路径的状态 + * 在第 3 章“Markov 决策过程”中可以看到**马尔可夫决策过程**(**MDP**)的框架,在该框架中,我们,最大化了每个状态的预期效用,并通过最大化预期奖励总和,优化了每个状态到目标状态的路径。 # 展示广告中使用强化学习的实时出价 在线展示主要通过实时出价来提供,其中,展示广告的每次展示都是在通过用户访问产生的同时实时出价的。 自动实时地出价对于广告商最大限度地提高利润至关重要。 因此,需要设计一种学习算法,该算法可以基于历史数据实时设计出最佳的学习策略,以便根据即时和未来的回报跨不同的印象进行预算的动态分配。 在这里,我们将讨论由 Cai 等人在《使用强化学习的展示广告中的实时出价》中发布​​的强化学习框架来制定出价决策过程。 -在蔡等人的这项研究中。 此外,我们考虑了在展示广告的情况下进行机器竞标,因为实时竞标是一项极富挑战性的任务,因为在在线展示广告的情况下,广告印象的竞标会在广告的展示机会生成后立即开始 用户访问。 在考虑了剩余预算,未来相关广告展示的可用性,出价结果和收到的反馈之后,为每次广告出价计算最佳出价,这些都可以帮助广告客户优化出价策略,从而更好地进行分配。 +在蔡等人的这项研究中。 此外,我们考虑了在展示广告的情况下进行机器竞标,因为实时竞标是一项极富挑战性的任务,因为在在线展示广告的情况下,只要它由用户访问生成,广告印象的竞标就会立即开始。 在考虑了剩余预算,未来相关广告展示的可用性,出价结果和收到的反馈之后,为每次广告出价计算最佳出价,这些都可以帮助广告客户优化出价策略,从而更好地进行分配。 在这里,研究人员试图获得最佳出价功能,该功能可以最大化广告活动的关键绩效指标,这些指标主要是总点击次数或总收入。 但是,这种方法主要在静态出价的情况下起作用,在这种情况下,出价发生在广告商为每个展示支付固定的平均费率的情况下。 在实时出价的情况下,它在展示级别是动态的,这意味着在一个平台中,根据生成的展示的需求,出价值会有所不同。 diff --git a/new/rl-tf/14.md b/new/rl-tf/14.md index ecf0b7f4..b02b8c35 100644 --- a/new/rl-tf/14.md +++ b/new/rl-tf/14.md @@ -6,9 +6,9 @@ 为什么在 NLP 中使用强化学习? -* 面向 NLP 的系统(例如文本摘要,对话框生成,问题解答,机器翻译等)确实具有典型的强化学习场景。 例如,对话系统具有增强型学习代理,该学习代理根据接收到的查询生成响应,其中接收到的查询可以是代表当前状态的信号,并且可以采取某种行动来生成响应,代理可以对此进行反馈 以奖励的形式。 +* 面向 NLP 的系统(例如文本摘要,对话框生成,问题解答,机器翻译等)确实具有典型的强化学习场景。 例如,对话系统具有增强型学习代理,该学习代理根据接收到的查询生成响应,其中接收到的查询可以是代表当前状态的信号,并且可以采取某种行动来生成响应,代理可以以奖励的形式对此进行反馈。 * 有很多隐藏变量,它们以隐藏状态的形式存在,还有更多。 决定要包括哪个潜在变量也可以表示为与某些奖励相关的动作。 -* 当前,对于序列到序列模型,我们有一个 BLEU 分数(请参见附录 A,“强化学习中的其他主题”),该分数用于评估生成的语言和实际语言之间的错误分数 输出,但 BLEU 分数只能在生成输入的整个预测语言之后进行评估。 它无法评估代持续进行的时间; 因此,它无法改善旅途中的流程。 +* 当前,对于序列到序列模型,我们有一个 BLEU 分数(请参见附录 A,“强化学习中的其他主题”),该分数用于评估生成的语言和实际输出之间的错误分数,但 BLEU 分数只能在生成输入的整个预测语言之后进行评估。 它无法评估代持续进行的时间; 因此,它无法改善旅途中的流程。 根据迄今为止进行的积极研究,强化学习为破坏和增强 NLP 下列领域的成果提供了机会: @@ -37,7 +37,7 @@ 在这里,我们将讨论 Paulus 等人(2017 年 11 月)的研究出版物《抽象摘要的深度强化模型》。 它向我们介绍了一种抽象摘要的新模型,该模型在 CNN /每日邮件数据集以及**纽约时报**(**NYT**)数据集上都获得了强大的结果(Sandhaus,2008 年)。 -所提出的模型通过使用**神经内部注意模型**和**混合学习目标**来解决上述问题,从而获得了这些最新结果 重复短语: +所提出的模型通过使用**神经内部注意模型**和**混合学习目标**来解决上述重复短语的问题,从而获得了这些最新结果: * **神经内部注意模型**:它由编码器中的**时间内部注意**组成,以记录每个输入标记的注意权重和**顺序解码器中的内部注意模型**来记录解码器已经生成的单词。 * **混合学习目标**:这是最大似然交叉熵损失(通常在有监督的深度学习框架中使用)和从策略梯度强化学习中获得的奖励的组合,以减少暴露偏见。 因此,当使用监督学习的标准单词预测与强化学习的全局序列预测训练相结合时,所得的摘要变得更具可读性,而不是重复短语。 @@ -207,7 +207,7 @@ Other than New York where did Tesla conduct experiments? Ground Truth Answer: Colorado Springs ``` -现有的最新**动态共同注意网络**(**DCN**)将上下文/段落和问题视为两个不同的输入序列,并输出 上下文中的答案范围作为输入。 下图简要概述了 DCN: +现有的最新**动态共同注意网络**(**DCN**)将上下文/段落和问题视为两个不同的输入序列,并输出输入上下文中的答案范围的开始和结束位置。 下图简要概述了 DCN: ![](img/51195a18-a5a6-4e7f-bd0e-e44d85094364.png) -- GitLab