提交 01d28b4a 编写于 作者: W wizardforcel

2021-01-21 18:00:51

上级 08c6d573
......@@ -660,7 +660,7 @@ for line in lines[:3]:
decoder_hidden = encoder_hidden[:decoder.n_layers]
```
接下来,我们实现教师强迫。 如果您从上一章的师强迫中回想起,当以给定的概率生成输出序列时,我们将使用真正的上一个输出标记而不是预测的上一个输出标记来生成输出序列中的下一个单词。 使用教师强制可以帮助我们的模型更快收敛。 但是,我们必须小心,不要使教师强迫率过高,否则我们的模型将过于依赖教师强迫,并且不会学会独立产生正确的输出。
接下来,我们实现教师强迫。 如果您从上一章的师强迫中回想起,当以给定的概率生成输出序列时,我们将使用真正的上一个输出标记而不是预测的上一个输出标记来生成输出序列中的下一个单词。 使用教师强制可以帮助我们的模型更快收敛。 但是,我们必须小心,不要使教师强迫率过高,否则我们的模型将过于依赖教师强迫,并且不会学会独立产生正确的输出。
5. 确定我们是否应该对当前步骤使用教师强制。
......
......@@ -141,7 +141,7 @@ class PennFudanDataset(object):
## 定义模型
在本教程中,我们将基于 [Faster R-CNN](https://arxiv.org/abs/1506.01497) 使用 [Mask R-CNN](https://arxiv.org/abs/1703.06870)更快的 R-CNN 是可预测图像中潜在对象的边界框和类分数的模型。
在本教程中,我们将基于 [Faster R-CNN](https://arxiv.org/abs/1506.01497) 使用 [Mask R-CNN](https://arxiv.org/abs/1703.06870)Faster R-CNN 是可预测图像中潜在对象的边界框和类分数的模型。
![intermediate/../../_static/img/tv_tutorial/tv_image03.png](img/611c2725bdfb89e258da9a99fca53433.png)
......
......@@ -118,7 +118,7 @@ Perkins 和 Barto(2002)提出了一种基于 Lyapunov 函数构造强化学
最近,已经进行了进一步的研究开发,以在简单模型的基础上构建复杂策略,以通过使用更好的参数化奖励函数来探索那些复杂策略来实现此目标。 在他们的研究中,Sorg 等人(2010 年)以及 Zucker 和 Bagnell(2012 年)通过调整奖励功能,通过策略搜索技术实现简单的最优控制,得出了复杂的策略。
# 悬而未决的问题和实际挑战
# 未解决的问题和实际挑战
根据强化学习算法的不同挑战,与监督学习相比,它们无法直接应用于机器人技术,后者在研究和更好的部署方面已经取得了重大的进步。
......@@ -126,7 +126,7 @@ Perkins 和 Barto(2002)提出了一种基于 Lyapunov 函数构造强化学
让我们讨论一些关于强化学习算法的开放性问题,这些问题在机器人强化学习领域中正在进行的和未来的研究中需要更多的关注。
# 公开问题
# 开放问题
以下列出了一些开放的,并非详尽无遗的问题,需要特别注意以提供更好的机器人技术强化学习模型:
......@@ -165,7 +165,7 @@ Perkins 和 Barto(2002)提出了一种基于 Lyapunov 函数构造强化学
* 在机器人强化学习中执行大规模,真实世界的实验是一项艰巨的任务
* AI 社区的研究人员正在为机器人强化学习进行实验的标准设置
# 重要要点
# 要点
在本章中,我们经历了机器人技术领域强化学习算法所面临的主要挑战。 因此,下图显示了想要进入这一强大的机器人强化学习研究领域的学生的主要收获:
......
......@@ -49,7 +49,7 @@
SPP 网络的一大缺点是,只能微调网络的全连接层,而不能进行不会发生反向传播的空间池化层。
# 快速 R-CNN
# Fast R-CNN
首先,是 Fast R-CNN(由 Microsoft Research 的 Ross Girshick 于 2015 年提出)提出了在图像的不同区域之间共享卷积输出的想法:
......@@ -62,15 +62,15 @@ Ross Girshick 的 [Fast R-CNN](https://arxiv.org/pdf/1504.08083.pdf)
* Softmax 概率
* 每类边界框回归偏移
快速 R-CNN 解决了与 SPP 网络相关的关键问题; 由于空间池化层未进行微调,因此,快速 R-CNN 提供了端到端的学习网络。 快速 R-CNN 使用类似于最大池梯度计算的简单反向传播,但池区域重叠。
Fast R-CNN 解决了与 SPP 网络相关的关键问题; 由于空间池化层未进行微调,因此,Fast R-CNN 提供了端到端的学习网络。 Fast R-CNN 使用类似于最大池梯度计算的简单反向传播,但池区域重叠。
此外,与 R-CNN 不同,Fast R-CNN 结合了边界框回归和神经网络训练,而 R-CNN 则使用边界框回归单独进行此区域优化,这有助于更好地定位。 因此,在快速 R-CNN 中,分类和定位不需要单独的网络。 结果,相对于之前开发的任何其他对象检测模型,总的训练时间显着减少,并且由于端到端学习,与 SPP 网络相比,其准确率更高。
此外,与 R-CNN 不同,Fast R-CNN 结合了边界框回归和神经网络训练,而 R-CNN 则使用边界框回归单独进行此区域优化,这有助于更好地定位。 因此,在Fast R-CNN 中,分类和定位不需要单独的网络。 结果,相对于之前开发的任何其他对象检测模型,总的训练时间显着减少,并且由于端到端学习,与 SPP 网络相比,其准确率更高。
# 更快的 R-CNN
# Faster R-CNN
更快的 R-CNN 以其名字命名。 它比以前的 Fast R-CNN 更快。 这是通过用称为**区域提议网络**的非常小的卷积网络替换 Fast R-CNN 的最慢部分(感兴趣的生成框区域)的选择性搜索来执行相同的任务来生成的, 极有可能包含对象(感兴趣的区域)。
Faster R-CNN 以其名字命名。 它比以前的 Fast R-CNN 更快。 这是通过用称为**区域提议网络**的非常小的卷积网络替换 Fast R-CNN 的最慢部分(感兴趣的生成框区域)的选择性搜索来执行相同的任务来生成的, 极有可能包含对象(感兴趣的区域)。
更快的 R-CNN 实现了锚框的概念,以处理宽高比和对象比例的变化。 对于每个区域,都有三个用于缩放比例和三个纵横比的锚点框。 因此,对于每个位置,我们有九个框被馈送到**区域提议网络****RPN**),以预测该区域是背景还是前景的可能性。 边界框回归用于改善每个此类区域的锚框。 因此,RPN 输出可变大小的边界框及其类概率。
Faster R-CNN 实现了锚框的概念,以处理宽高比和对象比例的变化。 对于每个区域,都有三个用于缩放比例和三个纵横比的锚点框。 因此,对于每个位置,我们有九个框被馈送到**区域提议网络****RPN**),以预测该区域是背景还是前景的可能性。 边界框回归用于改善每个此类区域的锚框。 因此,RPN 输出可变大小的边界框及其类概率。
因此,RPN 给出了各种大小的边界框,每个边界的概率与每个类的对应概率相同,其余网络类似于 Fast-RCNN。 Faster-RCNN 的速度是 Fast-RCNN 的 10 倍,具有相似的精度,从而使其成为可用的最精确的对象检测模型之一。 下表显示了 R-CNN 不同变体的速度分析:
......@@ -80,7 +80,7 @@ Ross Girshick 的 [Fast R-CNN](https://arxiv.org/pdf/1504.08083.pdf)
| Fast R-CNN | 2 | 25 倍 |
| Faster R-CNN | 0.2 | 250 倍 |
# 你只看一次
# YOLO(你只看一次)
YOLO 通过执行回归学习类概率和边界框的大小,从而对输入图像执行对象检测。 YOLO 将图像划分为`SxS`网格,每个网格预测`N`边界框和置信度。 该置信度值量化边界框的准确率和对象在边界框中的出现。
......@@ -100,7 +100,7 @@ YOLO 还可以预测训练中所有班级每个盒子的班级得分。 因此
在这里,我们将尝试通过强化学习框架来实现对象检测问题,在强化学习框架中,强化学习代理将与环境图像进行交互,并且每步,代理将决定关注哪个区域,以实现目标。 以最少的时间步长找到对象。 问题陈述以**马尔可夫决策过程****MDP**)框架表示,其不同参数讨论如下:
#
# 状态
代理状态的第一部分由使用两个模型提取的视觉特征定义,它们是:
......
......@@ -33,20 +33,20 @@
为机器翻译创建的基于注意力的编码器解码器模型(Bahdanau 等,2014)是一个序列到序列模型,能够通过获得良好的 ROUGE 得分来生成具有良好性能的抽象摘要(请参见附录 A,“强化学习中的其他主题”)。 在短输入序列上的性能很好,并且随着输入文本序列长度的增加而降低。
在 CNN /每日邮件数据集的更大输入序列和输出摘要数据集上(Hermann 等,2015),Nallapati 等人(2016)提出了抽象摘要模型的应用,其中输入序列最多为 800 个令牌,而摘要最多为 100 个令牌。 对本实验的分析表明,与较大输入序列的基于注意力的编码器-解码器模型相关的问题是,它们通常会生成异常摘要,这些摘要通常由重复的短语组成。 这是因为仅通过监督学习方法进行训练的编码器解码器模型通常会遭受曝光偏差,即在训练过程中的每个时间步骤都提供了地面真相(实际文本)的假设。
在 CNN /每日邮件数据集的更大输入序列和输出摘要数据集上(Hermann 等,2015),Nallapati 等人(2016)提出了抽象摘要模型的应用,其中输入序列最多为 800 个标记,而摘要最多为 100 个标记。 对本实验的分析表明,与较大输入序列的基于注意力的编码器-解码器模型相关的问题是,它们通常会生成异常摘要,这些摘要通常由重复的短语组成。 这是因为仅通过监督学习方法进行训练的编码器解码器模型通常会遭受曝光偏差,即在训练过程中的每个时间步骤都提供了地面真相(实际文本)的假设。
在这里,我们将讨论 Paulus 等人(2017 年 11 月)的研究出版物《抽象摘要的深度强化模型》。 它向我们介绍了一种抽象摘要的新模型,该模型在 CNN /每日邮件数据集以及**纽约时报****NYT**)数据集上都获得了强大的结果(Sandhaus,2008 年)。
所提出的模型通过使用**神经内部注意模型****混合学习目标**来解决上述问题,从而获得了这些最新结果 重复短语:
* **神经内部注意模型**:它由编码器中的**时间内部注意**组成,以记录每个输入令牌的注意权重和**顺序解码器中的内部注意模型**来记录解码器已经生成的单词。
* **神经内部注意模型**:它由编码器中的**时间内部注意**组成,以记录每个输入标记的注意权重和**顺序解码器中的内部注意模型**来记录解码器已经生成的单词。
* **混合学习目标**:这是最大似然交叉熵损失(通常在有监督的深度学习框架中使用)和从策略梯度强化学习中获得的奖励的组合,以减少暴露偏见。 因此,当使用监督学习的标准单词预测与强化学习的全局序列预测训练相结合时,所得的摘要变得更具可读性,而不是重复短语。
该提议的方法在 CNN /每日邮件数据集上进行了测试,并获得 41.16 的 ROUGE-1 评分,相对于以前的抽象摘要方法而言,这是一个显着的改进。 此外,人工评估还表明,与早期方法相比,所得到的摘要更具可读性。
在下一节中,我们将简要介绍该方法,以了解如何使用强化学习来创建最新的抽象总结模型。
在下一节中,我们将简要介绍该方法,以了解如何使用强化学习来创建最新的抽象摘要模型。
# 用于抽象的深度强化模型
# 用于抽象摘要的深度强化模型
如前所述,此方法包含两个重要方法:
......@@ -55,17 +55,17 @@
# 神经内部注意模型
本节说明了编码器-解码器网络上的神经内部注意模型。 此处,![](img/854a7ddc-0625-4736-b366-910857f25226.png)代表输入(文章)令牌的序列,![](img/e02447f3-d66c-484b-adb0-e1dc426b51e5.png)代表输出(摘要)令牌的序列。 网络的编码器部分由双向 LSTM 组成(请参见[附录 A](../Text/15.html) ,“强化学习”中的其他主题)。 因此,使用双向 LSTM 读取输入序列`x`,该 LSTM 从![](img/f25db2d7-ce50-4b2e-951a-809217f5d3f4.png)的嵌入向量计算隐藏状态![](img/a30dc36d-fe5e-4660-ad70-f9dc529e6650.png),其中||。 表示向量的串联。
本节说明了编码器-解码器网络上的神经内部注意模型。 此处,![](img/854a7ddc-0625-4736-b366-910857f25226.png)代表输入(文章)标记的序列,![](img/e02447f3-d66c-484b-adb0-e1dc426b51e5.png)代表输出(摘要)标记的序列。 网络的编码器部分由双向 LSTM 组成(请参见[附录 A](../Text/15.html) ,“强化学习”中的其他主题)。 因此,使用双向 LSTM 读取输入序列`x`,该 LSTM 从![](img/f25db2d7-ce50-4b2e-951a-809217f5d3f4.png)的嵌入向量计算隐藏状态![](img/a30dc36d-fe5e-4660-ad70-f9dc529e6650.png),其中||。 表示向量的串联。
在框架的解码器部分,使用单个 LSTM,该 LSTM 从![](img/5ba77ef5-982e-4a34-83e0-9b3458143c64.png)的嵌入向量计算隐藏状态![](img/8a85c52e-c80d-4e61-9e7a-7ea72560da10.png)。 在时间步零处的初始隐藏状态(即![](img/3acb7be9-9441-42fd-9bd0-e5ecbfb0a922.png))使用编码器的最后一个隐藏状态(即![](img/046773a8-466d-4c5e-b7a3-4a6e90ab83de.png))进行初始化。 因此,![](img/e260025c-5c07-4766-992e-1f8e2fd73844.png)
# 解码时对输入序列的时间内部注意
# 解码时的输入序列上的时间内部注意
解码时,在每个时间步`t`时,时空内部注意力函数用于伴随编码器输入序列的重要部分以及解码器的隐藏状态和先前生成的单词(在早期的解码过程中)`t`之前的时间步长)。 这种注意方法用于防止在不同时间步长的解码过程中出现输入序列的相同部分。
由![](img/bfca054b-7871-4546-a86e-6c41a485dd65.png)给出在解码时间步长`t`处的隐藏输入状态![](img/160ef7cf-4119-43f9-84f5-5e22f14e7eae.png)的关注分数。 因此,![](img/22e90111-bb9b-439b-9af2-95d1ce99f6e5.png),其中`f`是返回![](img/03a73dce-566c-41ae-82e7-a478d4110882.png)标量值的任何函数。
注意权重进一步标准化(如下所示),以惩罚在先前的解码步骤中已收到较高注意值的那些输入令牌。 这为我们提供了新的时间注意力得分![](img/0d47c944-7ff3-4880-995c-c77b7ca36fb6.png)
注意权重进一步标准化(如下所示),以惩罚在先前的解码步骤中已收到较高注意值的那些输入标记。 这为我们提供了新的时间注意力得分![](img/0d47c944-7ff3-4880-995c-c77b7ca36fb6.png)
![](img/d57898fc-cc80-4ac7-8363-e854bf9e20d1.png)
......@@ -95,17 +95,17 @@
Paulus 等人(2017)在[《用于抽象摘要的深度强化模型》](https://arxiv.org/pdf/1705.04304.pdf)中发表的时间内部注意和解码器内部注意
# 令牌生成和指针
# 标记生成和指针
在确定输出序列令牌时,解码器决定使用 softmax 层生成令牌,或者使用指针机制指向输入中的稀有重要令牌,并将其复制为输出序列令牌。 在每个解码步骤,使用切换功能来决定是使用令牌生成还是使用点来复制输入令牌。 ![](img/5a1ecca2-91be-4832-bcb8-f77758f11890.png)定义为二进制值,如果使用指针机制,则等于 1,否则等于 0。因此,![](img/b9613b77-27a7-4e05-a4ca-d1200b6b6276.png)作为输出令牌的概率由以下公式给出:
在确定输出序列标记时,解码器决定使用 softmax 层生成标记,或者使用指针机制指向输入中的稀有重要标记,并将其复制为输出序列标记。 在每个解码步骤,使用切换功能来决定是使用标记生成还是使用点来复制输入标记。 ![](img/5a1ecca2-91be-4832-bcb8-f77758f11890.png)定义为二进制值,如果使用指针机制,则等于 1,否则等于 0。因此,![](img/b9613b77-27a7-4e05-a4ca-d1200b6b6276.png)作为输出标记的概率由以下公式给出:
![](img/ef9ea2f7-76ec-4ce4-a48d-fd822975020e.png)
在这里,令牌生成层创建以下概率分布:
在这里,标记生成层创建以下概率分布:
![](img/3174ba55-4632-4832-aac4-1a27eec17681.png)
这里,![](img/ef046c9c-f449-4f12-bcfc-f0b8825857b0.png)和![](img/81d912e1-ee61-48ba-9694-d2792c646a4a.png)是连接到输出节点的解码器网络的权重和偏差参数,并且指针机制生成以下概率分布来复制输入令牌![](img/f883b6a5-f2a7-496a-8f29-d38a24a5ff93.png)
这里,![](img/ef046c9c-f449-4f12-bcfc-f0b8825857b0.png)和![](img/81d912e1-ee61-48ba-9694-d2792c646a4a.png)是连接到输出节点的解码器网络的权重和偏差参数,并且指针机制生成以下概率分布来复制输入标记![](img/f883b6a5-f2a7-496a-8f29-d38a24a5ff93.png)
![](img/e48ae8a5-9f5f-443c-bc57-a71c260e48b9.png)
......@@ -119,7 +119,7 @@ Paulus 等人(2017)在[《用于抽象摘要的深度强化模型》](https:
在本节中,使用监督学习和强化学习的组合来训练编码器解码器网络上先前提出的神经内部注意模型的框架。
# 师强迫下的监督学习
# 师强迫下的监督学习
教师强迫算法(由 Williams 等,1989)是训练解码器 RNN 用于序列生成的最广泛使用的方法。 在解码过程中的每个时间步,教师强制算法都将最大似然损失降至最低。 ![](img/f0236bfa-e144-4665-ba34-4b888571d537.png)定义为给定输入序列`x`的地面真值输出序列。 然后,使用教师强迫算法进行监督学习的最大似然目标将是最小化损失函数,如下所示:
......@@ -128,7 +128,7 @@ Paulus 等人(2017)在[《用于抽象摘要的深度强化模型》](https:
但是,将![](img/cc3ba3fd-34bd-41ce-84a1-4142a2b0c6a5.png)最小化的目标并不总是产生最佳结果。 此问题背后的两个主要原因如下:
* **暴露偏差**:在训练过程中,神经网络知道直到下一个标记的地面真相序列,但在测试时并非如此。
* **多个输出候选**(即**多个可能有效的摘要**):有更多方式可以安排令牌以生成多个摘要。 最大可能性目标没有考虑这种可能性。
* **多个输出候选**(即**多个可能有效的摘要**):有更多方式可以安排标记以生成多个摘要。 最大可能性目标没有考虑这种可能性。
# 策略学习
......@@ -151,13 +151,13 @@ Paulus 等人(2017)在[《用于抽象摘要的深度强化模型》](https:
# 混合训练目标函数
由于最大似然目标基于先前生成的令牌计算了下一个令牌的概率,而诸如 ROUGE 之类的奖励指标有助于通过困惑度来衡量人类的可读性,因此这两种方法都可用于得出混合学习目标函数,如下所示:
由于最大似然目标基于先前生成的标记计算了下一个标记的概率,而诸如 ROUGE 之类的奖励指标有助于通过困惑度来衡量人类的可读性,因此这两种方法都可用于得出混合学习目标函数,如下所示:
![](img/1f5593f6-9ff7-44e2-b877-79ff4e7cfb40.png)
此处,![](img/041f8769-bdbd-4cce-9e98-1322b3c66044.png)是缩放系数,用于平衡![](img/467103a4-2935-4c38-bcb8-8dd9414f23a4.png)和![](img/c426211a-cbfc-4073-a13a-f719b984519d.png)的大小差异。
# 文字答疑
# 文字问答
问题回答是提供文档上下文以及在给定文档上下文中存在其答案的问题的任务。 现有的问题回答模型用于优化交叉熵损失,该模型用于鼓励准确答案并惩罚与准确答案同等准确的其他可能答案。 这些现有的问题回答模型(Xiong 等人,2017 年的最新动态动态求职网络)经过训练,可以从文档上下文中输出所问问题的准确答案范围。 实际地面真相答案的开始和结束位置将用作此监督学习方法的目标。 因此,该监督模型在两个位置上都使用了交叉熵损失,目的是使两个位置上的总损失最小化。
......@@ -215,7 +215,7 @@ Ground Truth Answer: Colorado Springs
在下一部分中,我们将简要介绍该方法,以了解如何使用强化学习来创建最新的问题回答模型。
# 客观的和深层的残留包容性混合用于问答
# 用于问答的混合目标和和深度残差共同注意
本研究中提出的框架基于 DCN 模型(请参见上图),该模型由共同注意编码器和动态解码器指针组成。 编码器分别对问题和文档上下文进行编码,然后通过覆盖范围形成二者的协作表示,然后解码器根据覆盖范围输出开始和结束位置估计。
......@@ -224,7 +224,7 @@ Ground Truth Answer: Colorado Springs
* 添加深度残留共同注意浓淡度编码器
* 混合训练目标函数,是最大似然交叉熵损失函数和强化学习的奖励函数的组合
# 深层残留共同注意编码器
# 深度残差共同注意编码器
由于原始的 DCN 仅具有一个单层涂布编码器,因此形成输入序列的复杂表示的能力也受到限制。 因此,对共同注意保持编码器进行了两种修改。 它们如下:
......
......@@ -29,11 +29,11 @@ TRPO 由 Schulman 等(2017)发布在名为[《信任区域策略优化》](h
可以将先前的更新规则合并到策略网络中,在该策略网络中使用随机梯度上升来更新参数。 这可以通过确定性的行为者批判方法来实现,其中批评者估计动作值函数,而行为者从批评者获得其梯度以更新其参数。 如 Silver 等人在[《确定性策略梯度算法》](http://proceedings.mlr.press/v32/silver14.pdf)中所述。 在实验之后,他们能够成功得出结论,确定性的策略梯度比随机的梯度更有效率。 此外,确定性演员评论家者的表现优于随机行动者。 有关此主题的详细说明超出了本书的范围。 因此,请转到前面提到的研究出版物链接。
# NLP 顺序模型中的评分机制
# NLP 序列模型中的评分机制
两种评分机制用于评估第 14 章“NLP 中的深度强化学习”中提到的方法,如下所示:
# 蓝色
# BLUE
在机器翻译,文本摘要,图像字幕等中使用的 NLP 顺序模型中的最大挑战之一是评估的适当度量。
......@@ -146,7 +146,7 @@ BP 称为简短惩罚。 如果机器生成的输出非常短,那么这个代
有关更多详细信息,请检查 Papineni 等人(2002)[关于 BLEU 分数的出版物](https://www.aclweb.org/anthology/P02-1040.pdf)
#
# ROUGE
ROUGE 代表针对召回评估的面向召回的本科。 它也是评估 NLP 中的顺序模型(特别是自动文本摘要和机器翻译)的度量。 CY Lin(2004)在研究出版物[《ROUGE:摘要自动评估包》](http://www.aclweb.org/anthology/W04-1013)中提出了 ROUG。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册