* Jacob Devlin 和其它 Google 人员的 [BERT 论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fbert),也证明了在海量语料上做自监督预训练的有效性,使用的是类似 GPT 的架构,但用的是无遮挡多头注意力层(类似 Transformer 的编码器)。这意味着模型实际是双向的这就是 BERT(Bidirectional Encoder Representations from Transformers)中的 B 的含义。最重要的,作者提出了两个预训练任务,用以测试模型能力:
K 次学习的一种非常常见的方法是训练具有相关任务的大型模型,而我们为此拥有大型数据集。 然后,通过 K 次特定任务对该模型进行微调。 因此,来自大型数据集的知识被*提炼为*到模型中,这仅从几个示例中增加了对新相关任务的学习。 2003 年,Bakker 和 Heskes 提出了一种用于 K 次学习的概率模型,其中所有任务共享一个公共特征提取器,但具有各自的线性分类器,其中仅包含几个特定于任务的参数。
K 样本学习的一种非常常见的方法是训练具有相关任务的大型模型,而我们为此拥有大型数据集。 然后,通过 K 次特定任务对该模型进行微调。 因此,来自大型数据集的知识被*提炼为*到模型中,这仅从几个示例中增加了对新相关任务的学习。 2003 年,Bakker 和 Heskes 提出了一种用于 K 样本学习的概率模型,其中所有任务共享一个公共特征提取器,但具有各自的线性分类器,其中仅包含几个特定于任务的参数。
这里讨论的 K 次学习的概率方法与 Bakker 和 Heskes 引入的方法非常相似。 该方法通过从很少的数据中学习概率模型来解决分类任务(针对图像)。 这个想法是使用一个强大的神经网络,该网络从大量监督数据中学习可靠的特征,并将其与概率模型结合起来。 神经网络最后一层的权重充当以贝叶斯方式规范化 K 次子模型权重的数据。
这里讨论的 K 样本学习的概率方法与 Bakker 和 Heskes 引入的方法非常相似。 该方法通过从很少的数据中学习概率模型来解决分类任务(针对图像)。 这个想法是使用一个强大的神经网络,该网络从大量监督数据中学习可靠的特征,并将其与概率模型结合起来。 神经网络最后一层的权重充当以贝叶斯方式规范化 K 次子模型权重的数据。
学习框架包括四个阶段:
* 表示学习
* 概念学习
* K 次学习
* K 样本学习
* K 次测试
下图显示了具有四个阶段的框架。 以下各节将对它们进行更正式的讨论:
...
...
@@ -149,9 +149,9 @@ K 次学习的一种非常常见的方法是训练具有相关任务的大型模
# 权重的概率模型
假设由于最大数据集`D_tilde`而在第一阶段获知的 softmax 权重`W_tilde`的不确定性很小。 将此近似值与上图中的图模型结构结合起来,我们可以摆脱原始数据集`D_tilde`,并使用`W_tilde`的 MAP 估计值(`W_MAP`)处于概念学习和 K 次学习阶段。 完整的概率模型遵循以下步骤:
假设由于最大数据集`D_tilde`而在第一阶段获知的 softmax 权重`W_tilde`的不确定性很小。 将此近似值与上图中的图模型结构结合起来,我们可以摆脱原始数据集`D_tilde`,并使用`W_tilde`的 MAP 估计值(`W_MAP`)处于概念学习和 K 样本学习阶段。 完整的概率模型遵循以下步骤:
1. K 次学习过程将信息合并到两个数据集`D_tilde`和`D`中,以在`W`上生成后验分布:
1. K 样本学习过程将信息合并到两个数据集`D_tilde`和`D`中,以在`W`上生成后验分布:
![](img/3f0ac346-6f71-413c-9364-4da122454208.png)
...
...
@@ -190,7 +190,7 @@ K 次学习的一种非常常见的方法是训练具有相关任务的大型模
![](img/4a4c76f8-4524-4ba0-bda8-afec7fa80efe.png)
K 次学习(等式 2)期间新权重`W`的后验分布简化为以下表达式:
K 样本学习(等式 2)期间新权重`W`的后验分布简化为以下表达式:
![](img/bd2213cb-753d-470a-994d-2b8cc7b6a7c4.png)
...
...
@@ -206,7 +206,7 @@ K 次学习(等式 2)期间新权重`W`的后验分布简化为以下表达
在本章中,我们将学习用于一次学习的**记忆增强神经网络**(**MANN**)。 在进入 MANN 之前,我们将了解他们的前身**神经图灵机**(**NTM**)。 我们将学习 NTM 如何使用外部存储器来存储和检索信息,并且还将看到如何使用 NTM 执行复制任务。
在本章中,我们将学习用于单样本学习的**记忆增强神经网络**(**MANN**)。 在进入 MANN 之前,我们将了解他们的前身**神经图灵机**(**NTM**)。 我们将学习 NTM 如何使用外部存储器来存储和检索信息,并且还将看到如何使用 NTM 执行复制任务。
在本章中,我们将学习以下内容:
...
...
@@ -645,7 +645,7 @@ train(args)
# 记忆增强神经网络(MANN)
现在,我们将看到一个有趣的 NTM 变体,称为 MANN。 它广泛用于一键式学习任务。 MANN 旨在使 NTM 在一次学习任务中表现更好。 我们知道 NTM 可以使用基于内容的寻址或基于位置的寻址。 但是在 MANN 中,我们仅使用基于内容的寻址。
现在,我们将看到一个有趣的 NTM 变体,称为 MANN。 它广泛用于一键式学习任务。 MANN 旨在使 NTM 在单样本学习任务中表现更好。 我们知道 NTM 可以使用基于内容的寻址或基于位置的寻址。 但是在 MANN 中,我们仅使用基于内容的寻址。
MANN 使用一种称为最少最近访问的新寻址方案。 顾名思义,它写入最近最少使用的内存位置。 等待。 什么? 我们刚刚了解到 MANN 不是基于位置的,那么为什么我们要写入最近最少使用的位置? 这是因为最近最少使用的存储位置由读取操作确定,而读取操作由基于内容的寻址执行。 因此,我们基本上执行基于内容的寻址,以读取和写入最近最少使用的位置。