2021-01-18 22:38:50

3c739a69 · wizardforcel · 3da9d67e · 3c739a69 · 3c739a69
隐藏空白更改
内联并排

Showing with 17 addition and 17 deletion

new/rl-tf/14.md new/rl-tf/14.md +10 -10

new/rl-tf/15.md new/rl-tf/15.md +7 -7

未找到文件。
--- a/new/rl-tf/14.md
+++ b/new/rl-tf/14.md
@@ -8,7 +8,7 @@

 *   面向 NLP 的系统（例如文本摘要，对话框生成，问题解答，机器翻译等）确实具有典型的强化学习场景。 例如，对话系统具有增强型学习代理，该学习代理根据接收到的查询生成响应，其中接收到的查询可以是代表当前状态的信号，并且可以采取某种行动来生成响应，代理可以对此进行反馈 以奖励的形式。
 *   有很多隐藏变量，它们以隐藏状态的形式存在，还有更多。 决定要包括哪个潜在变量也可以表示为与某些奖励相关的动作。
-*   当前，对于序列到序列模型，我们有一个 BLEU 分数（请参见[附录 A](../Text/15.html) ，“强化学习”中的其他主题），该分数用于评估生成的语言和实际语言之间的错误分数 输出，但 BLEU 分数只能在生成输入的整个预测语言之后进行评估。 它无法评估代持续进行的时间； 因此，它无法改善旅途中的流程。
+*   当前，对于序列到序列模型，我们有一个 BLEU 分数（请参见附录 A，“强化学习中的其他主题”），该分数用于评估生成的语言和实际语言之间的错误分数 输出，但 BLEU 分数只能在生成输入的整个预测语言之后进行评估。 它无法评估代持续进行的时间； 因此，它无法改善旅途中的流程。

 根据迄今为止进行的积极研究，强化学习为破坏和增强 NLP 下列领域的成果提供了机会：

@@ -31,11 +31,11 @@
 *   **提取式摘要**：通过复制输入文本中的部分文本来创建摘要
 *   **抽象式摘要**：通过改写文本或使用输入文本中未包含的新词来生成新文本

-为机器翻译创建的基于注意力的编码器解码器模型（Bahdanau 等，2014）是一个序列到序列模型，能够通过获得良好的 ROUGE 得分来生成具有良好性能的抽象摘要（请参见[附录 A](../Text/15.html) ，“强化学习”中的其他主题）。 在短输入序列上的性能很好，并且随着输入文本序列长度的增加而降低。
+为机器翻译创建的基于注意力的编码器解码器模型（Bahdanau 等，2014）是一个序列到序列模型，能够通过获得良好的 ROUGE 得分来生成具有良好性能的抽象摘要（请参见附录 A，“强化学习中的其他主题”）。 在短输入序列上的性能很好，并且随着输入文本序列长度的增加而降低。

 在 CNN /每日邮件数据集的更大输入序列和输出摘要数据集上（Hermann 等，2015），Nallapati 等人（2016）提出了抽象摘要模型的应用，其中输入序列最多为 800 个令牌，而摘要最多为 100 个令牌。 对本实验的分析表明，与较大输入序列的基于注意力的编码器-解码器模型相关的问题是，它们通常会生成异常摘要，这些摘要通常由重复的短语组成。 这是因为仅通过监督学习方法进行训练的编码器解码器模型通常会遭受曝光偏差，即在训练过程中的每个时间步骤都提供了地面真相（实际文本）的假设。

-在这里，我们将讨论 Paulus 等人的研究出版物《抽象摘要的深度强化模型》。 等 （2017 年 11 月），它向我们介绍了一种抽象摘要的新模型，该模型在 CNN /每日邮件数据集以及**纽约时报**（**NYT**）数据集上都获得了强大的结果（Sandhaus，2008 年）。
+在这里，我们将讨论 Paulus 等人（2017 年 11 月）的研究出版物《抽象摘要的深度强化模型》。 它向我们介绍了一种抽象摘要的新模型，该模型在 CNN /每日邮件数据集以及**纽约时报**（**NYT**）数据集上都获得了强大的结果（Sandhaus，2008 年）。

 所提出的模型通过使用**神经内部注意模型**和**混合学习目标**来解决上述问题，从而获得了这些最新结果 重复短语：

@@ -81,7 +81,7 @@

 为了实现这种方法以合并来自先前解码步骤的信息，应用了解码器内部注意。 当前的编码器-解码器模型中未使用此方法进行抽象总结。 对于解码时的每个时间步`t`，都会计算新的解码器上下文向量![](img/06c52fcd-4d03-4da3-b94a-b1d134a51d2a.png)。 由于在解码时为第一时间步生成的序列为空，因此，将用于时间步 1 的初始解码器上下文向量（即![](img/9c9eca09-e449-433e-bb58-9f760cd5cc1f.png)）设置为零向量。

-对于 t> 1，按以下方式计算时间关注分数![](img/55ba6afa-9f09-40ae-8952-003b2288e5fd.png)，归一化关注分数![](img/5a3a634a-9309-4ada-89bc-79325ea451d4.png)和解码器上下文向量![](img/06c52fcd-4d03-4da3-b94a-b1d134a51d2a.png)：
+对于`t > 1`，按以下方式计算时间关注分数![](img/55ba6afa-9f09-40ae-8952-003b2288e5fd.png)，归一化关注分数![](img/5a3a634a-9309-4ada-89bc-79325ea451d4.png)和解码器上下文向量![](img/06c52fcd-4d03-4da3-b94a-b1d134a51d2a.png)：

 ![](img/960f289d-1bee-416d-89e4-1d335b0c0db3.png)

@@ -145,7 +145,7 @@ Paulus 等人（2017）在[《用于抽象摘要的深度强化模型》](https:

 因此，强化学习框架用于学习最大化特定离散量度的策略。 强化学习框架总结如下：

-*   **操作**：![](img/9cea37ab-5a50-4639-bb3c-d378a3c2bb98.png) [generate（0），copy（1）]和单词![](img/dff603ec-645c-4405-ba4d-ed1115481082.png)
+*   **操作**：`u[t] ∈ generate(0), copy(1)`和单词`y[t]^s`
 *   **状态**：编码器和先前输出的隐藏状态
 *   **奖励**：ROUGE 得分或任何其他评估指标

@@ -165,7 +165,7 @@ Paulus 等人（2017）在[《用于抽象摘要的深度强化模型》](https:

 为了解决这个问题，熊等人发表了他们的研究《DCN+：问答的混合目标和深度残差协作》，*提出了使用混合目标函数的方法，该函数是交叉熵损失和自我批判策略学习的组合。 这个混合目标使用从单词重叠中获得的奖励来解决现有模型中评估与优化之间的脱节问题。

-提出的新框架对于需要捕获长期依存关系的长问题表现更好，能够获得 75.1% 的精确匹配准确度和 83.1% 的 F1 分数的强大结果，而集成模型获得 78.9% 的精确匹配准确度和 86.0 % F1 分数。
+提出的新框架对于需要捕获长期依存关系的长问题表现更好，能够获得 75.1% 的精确匹配准确度和 83.1% 的 F1 分数的强大结果，而集成模型获得 78.9% 的精确匹配准确度和 86.0% F1 分数。

 因此，混合目标的方法提供了两个好处：

@@ -217,9 +217,9 @@ Ground Truth Answer: Colorado Springs

 # 客观的和深层的残留包容性混合用于问答

-本研究中提出的框架基于 DCN 模型（请参见上图），该模型由 Coattention 编码器和动态解码器指针组成。 编码器分别对问题和文档上下文进行编码，然后通过覆盖范围形成二者的协作表示，然后解码器根据覆盖范围输出开始和结束位置估计。
+本研究中提出的框架基于 DCN 模型（请参见上图），该模型由共同注意编码器和动态解码器指针组成。 编码器分别对问题和文档上下文进行编码，然后通过覆盖范围形成二者的协作表示，然后解码器根据覆盖范围输出开始和结束位置估计。

-在 DCN +的新框架中，原始 DCN 框架引入了两个新更改。 它们如下：
+在 DCN+ 的新框架中，原始 DCN 框架引入了两个新更改。 它们如下：

 *   添加深度残留共同注意浓淡度编码器
 *   混合训练目标函数，是最大似然交叉熵损失函数和强化学习的奖励函数的组合
@@ -229,7 +229,7 @@ Ground Truth Answer: Colorado Springs
 由于原始的 DCN 仅具有一个单层涂布编码器，因此形成输入序列的复杂表示的能力也受到限制。 因此，对共同注意保持编码器进行了两种修改。 它们如下：

 *   通过堆叠许多共同注意增强层来修改共同注意增强编码器，以便网络能够创建更好的复杂表示形式
-*   合并每一层的所有 coattnetion 输出，以减少信号路径长度：
+*   合并每一层的所有共同注意输出，以减少信号路径长度：

 ![](img/1cb246af-3935-42e7-b90b-7ca94bf88912.png)

@@ -242,7 +242,7 @@ DCN 在答案的开始位置创建概率分布，并在答案的结束位置创
 *   **完全匹配**：一个二进制值，指示模型输出的答案范围与地面真实答案范围具有精确的字符串匹配
 *   **F1 分数**：该值用于量化模型在预测答案范围和地面真实答案范围之间的单词重叠程度

-根据原始的 DCN 框架，目标功能和评估指标是不连贯的，因此，对确切的匹配给予了极大的鼓励。 举例来说，有两个答案范围`A`和`B`，但它们都不与地面真实答案范围匹配，但是`A`具有完全匹配的字符串，而`B`没有字符串匹配。 然后，在这种情况下，尽管根据先前的完全匹配指标，A 是正确的输出，但仅交叉熵损失的旧客观方法将同等地惩罚`A`和`B`和 F1 得分。
+根据原始的 DCN 框架，目标功能和评估指标是不连贯的，因此，对确切的匹配给予了极大的鼓励。 举例来说，有两个答案范围`A`和`B`，但它们都不与地面真实答案范围匹配，但是`A`具有完全匹配的字符串，而`B`没有字符串匹配。 然后，在这种情况下，尽管根据先前的完全匹配指标，`A`是正确的输出，但仅交叉熵损失的旧客观方法将同等地惩罚`A`和`B`和 F1 得分。

 如果我们检查 F1 分数，则`A`的量度显示单词在跨度`A`中重叠且具有真实答案范围，但答案`B`则不是这种情况。 因此，F1 分数与自关键策略梯度算法一起用作训练的奖励函数。


--- a/new/rl-tf/15.md
+++ b/new/rl-tf/15.md
@@ -4,7 +4,7 @@

 # 连续动作空间算法

-深度强化学习拓扑中有许多连续的动作空间算法。 我们在第 4 章，“策略梯度”中较早介绍的其中一些主要是随机策略梯度和随机行为者-批判算法。 随机策略梯度与许多问题相关，例如由于观察值和奖励分配的连续变化而导致的非平稳数据导致难以选择步长，其中差的步长会对策略网络参数的学习产生不利影响。 因此，需要一种在训练策略网络参数时可以限制此策略搜索空间并避免不良步骤的方法。
+深度强化学习拓扑中有许多连续的动作空间算法。 我们在第 4 章，“策略梯度”中较早介绍的其中一些主要是随机策略梯度和随机演员评论家算法。 随机策略梯度与许多问题相关，例如由于观察值和奖励分配的连续变化而导致的非平稳数据导致难以选择步长，其中差的步长会对策略网络参数的学习产生不利影响。 因此，需要一种在训练策略网络参数时可以限制此策略搜索空间并避免不良步骤的方法。

 在这里，我们将尝试介绍一些高级连续动作空间算法：

@@ -110,17 +110,17 @@ BLEU 分数背后的动机是设计一种度量标准，该度量标准可以像

 ![](img/c6b988fb-7630-4308-a29c-f267f2090ed8.png)

-因此，我们可以为单字组，二元组和 n 元组创建以下精度公式，如下所示：
+因此，我们可以为单字组，二元组和 N 元组创建以下精度公式，如下所示：

-*   p <sub class="calibre209">1</sub> =精确度，表示：
+*   `p[1]`为精确度，表示：

 ![](img/67aed179-f9dc-4f4f-9290-2283a5e158c1.png)

-*   p <sub class="calibre209">2</sub> =二元语法的精度，其中：
+*   `p[2]`为二元语法的精度，其中：

 ![](img/f8c6ec7d-4e4c-4b75-9b35-37feda85ebea.png)

-*   p <sub class="calibre209">n</sub> = N 元组的精度，其中：
+*   `p[n]`为 N 元组的精度，其中：

 ![](img/933d07ec-861d-4df0-82cf-c94815cb82c1.png)

@@ -161,7 +161,7 @@ ROUGE 还可以通过将机器生成的输出（自动摘要或翻译）与一

 ![](img/801dc246-dbba-4dcb-914a-8eaa411d6367.png)

-因此，召回率= 6/6 = 1.0。
+因此，召回率`= 6/6 = 1.0`。

 如果召回率为 1.0，则意味着人工生成的参考中的所有单词均由机器生成的输出捕获。 可能会出现机器生成的输出过长的情况。 因此，在计算召回率时，较长的机器生成的输出很可能覆盖大多数人工生成的参考词。 结果，精度得以提高，其计算方法如下所示：

@@ -221,7 +221,7 @@ ROUGE 还可以通过将机器生成的输出（自动摘要或翻译）与一

 ![](img/5c613f75-cc17-4c3b-8614-342a3c32ac48.png)

-因此，ROUGE-2 <sub class="calibre209">精度</sub>显示该机器生成的二元语法的 67% 与人类生成的参考重叠。
+因此，`ROUGE-2_procision`显示该机器生成的二元语法的 67% 与人类生成的参考重叠。

 本附录涵盖了 NLP 中顺序模型中 ROUGE 评分的基本概述。 有关 ROUGE-N，ROUGE-L 和 ROUGE-S 的更多详细信息，请浏览[《ROUGE：自动摘要评估包》](http://www.aclweb.org/anthology/W04-1013)，作者为 CY Lin。