提交 5c9cb6c7 编写于 作者: W wizardforcel

2021-01-23 12:24:59

上级 264e6d0a
......@@ -18,13 +18,13 @@
# 贝叶斯学习概述
在本节中,我们将从数学的角度简要讨论贝叶斯学习背后的思想,这是单次学习概率模型的核心。 贝叶斯学习的总体目标是在给定训练数据的情况下,对参数 <sub>![](img/6a0abbab-fae5-4a97-877c-6b42bcfd166e.png)</sub> 的分布进行建模,即学习分布 <sub>![](img/93c17f96-9c0a-4d21-8727-adf146c3b624.png)</sub>
在本节中,我们将从数学的角度简要讨论贝叶斯学习背后的思想,这是单次学习概率模型的核心。 贝叶斯学习的总体目标是在给定训练数据的情况下,对参数`θ`的分布进行建模,即学习分布`p(θ | Data)`
在机器学习的概率视图中,我们尝试求解以下方程式:
![](img/461dfab6-3cd8-4782-a6de-e092332fa3b6.png)
在此设置中,我们尝试找到可以解释数据的最佳参数集`θ`。 因此,我们在 <sub>![](img/bb061da6-c98f-427b-9e32-043c4a81bb89.png)</sub> 上最大化给定方程:
在此设置中,我们尝试找到可以解释数据的最佳参数集`θ`。 因此,我们在`θ`上最大化给定方程:
![](img/59ce0f8b-fa97-4605-98f6-78bf3737c14f.png)
......@@ -36,15 +36,15 @@
![](img/d5a1d317-b037-40b4-b612-10d2e168e328.png)
在非概率视图(也称为**期望最大化框架**)中,右侧等式中的术语 <sub>![](img/b2bc2505-5ae0-48b6-8e48-9e6b6f33452f.png)</sub><sub>![](img/eaf61a80-dcfc-4e84-9c97-4a61a0f3cf8e.png)</sub> ,分别成为损失函数和正则化。 在给定的概率设置中,相同的术语称为(给定`θ`的数据的)**可能性****先验**(在参数空间中的先验信念)。 这种概率优化称为**最大后验****MAP**)估计,因为我们正在从数据中最大化模型参数的后验分布。 但是,贝叶斯统计不相信 MAP 估计,因为它可能给我们有关最终学习参数的错误结果。 一个不同的数据集很有可能会给我们完全不同的学习参数,这些参数在参数空间中与从原始数据集中学习的参数相距甚远。 这就是贝叶斯学习试图解决的问题。 它显式地模拟参数空间中的不确定性。
在非概率视图(也称为**期望最大化框架**)中,右侧等式中的术语`p(Data | θ)``P(θ)`,分别成为损失函数和正则化。 在给定的概率设置中,相同的术语称为(给定`θ`的数据的)**可能性****先验**(在参数空间中的先验信念)。 这种概率优化称为**最大后验****MAP**)估计,因为我们正在从数据中最大化模型参数的后验分布。 但是,贝叶斯统计不相信 MAP 估计,因为它可能给我们有关最终学习参数的错误结果。 一个不同的数据集很有可能会给我们完全不同的学习参数,这些参数在参数空间中与从原始数据集中学习的参数相距甚远。 这就是贝叶斯学习试图解决的问题。 它显式地模拟参数空间中的不确定性。
考虑给定左撇子和右撇子人数据集的参数分布示例。 下图显示了分布:
![](img/ad909edc-738b-40ed-a6fb-4d3893f9efc9.png)
最大化来自数据的参数( <sub>![](img/1b4b3973-b8ce-4ddf-afcb-469b72ce5521.png)</sub> )概率的 MAP 估计将收敛至点`A`。但是,大多数概率量都更偏向于*惯用右手的人*,这与世界上惯用右手的人多于惯用左手的人这一事实相吻合。
最大化来自数据的参数(`θ`)概率的 MAP 估计将收敛至点`A`。但是,大多数概率量都更偏向于*惯用右手的人*,这与世界上惯用右手的人多于惯用左手的人这一事实相吻合。
因此,在贝叶斯学习中,重点是解决后验参数 <sub>![](img/1df7ccef-e62d-415b-8374-c4abefa20f71.png)</sub> ,以明确地对参数中的不确定性建模。
因此,在贝叶斯学习中,重点是解决后验参数`P(Data | θ)`,以明确地对参数中的不确定性建模。
# 了解有向图模型
......@@ -58,7 +58,7 @@
前面方程右侧的条件分布具有大量参数。 这是因为每个分布都以许多变量为条件,并且每个条件变量都有其自己的结果空间。 如果我们在有大量条件变量的情况下在图表中走得更远,则这种影响会更加突出。 因此,要学习每种条件分布的庞大参数集,我们需要大量的标记数据,这在现代机器学习任务中通常是不可用的。
这是有向图模型进入图片的地方。 它断言了概率的一些条件独立性,从而简化了前面描述的方程式。 有向图模型中的每个变量在条件上独立于给定其父对象的非后代。 有向图模型不过是条件独立性的表示。 更正式地讲,如果 <sub>![](img/20f73768-ea0a-4718-8951-942b861b9a51.png)</sub> 是有向图中的顶点,则 <sub>![](img/a10513e9-4297-48e5-945d-752c9dd567e8.png)</sub> 是顶点数, <sub>![](img/7d96d230-244e-4a7c-9ef1-640b7e312eda.png)</sub> 都是 顶点 <sub>![](img/40503166-9131-4476-b15a-3296d42e6125.png)</sub> 的父级,则所有顶点上的联合概率分布可写为:
这是有向图模型进入图片的地方。 它断言了概率的一些条件独立性,从而简化了前面描述的方程式。 有向图模型中的每个变量在条件上独立于给定其父对象的非后代。 有向图模型不过是条件独立性的表示。 更正式地讲,如果`X[i]`是有向图中的顶点,则`V`是顶点数,`X[pa(t)]`都是顶点`X[t]`的父级,则所有顶点上的联合概率分布可写为:
![](img/4bb469f5-c12f-455b-9a29-06e6eff50baa.png)
......@@ -97,30 +97,30 @@
# 模型
给定如图 A 所示的有向图模型,类型 <sub>![](img/b7641550-6815-4d7a-9aac-dc70858be377.png)</sub> 的联合分布; 一组`M`个标记, <sub>![](img/1817f094-1f42-4f61-95b3-1ad5b6f70912.png)</sub> ; 及其相应的原始图像 <sub>![](img/aaec2166-2d9a-421d-a9b7-1752a71ae2e5.png)</sub> 分解如下:
给定如图 A 所示的有向图模型,类型`ψ`的联合分布; 一组`M`个标记, `θ[1], ..., θ[M]`; 及其相应的原始图像`I[1], ..., I[M]`分解如下:
![](img/a87b8aac-2728-4f0f-bfb7-9e588762ceca.png)
这三个生成过程分别是类型生成( <sub>![](img/6bf841f2-edcd-468b-a4a0-e7948217f921.png)</sub> ),标记生成( <sub>![](img/551af09e-137b-4333-b68b-0038d9eefb47.png)</sub> )和图像生成( <sub>![](img/f0ad5c1b-7255-4e7c-8dfe-01808162a236.png)</sub> ),分别是 在下图中用其伪代码进行了讨论:
这三个生成过程分别是类型生成(`P(ψ)`),标记生成(`P(θ[m] | ψ[m])`)和图像生成(`P(I[m] | θ[m])`),分别是 在下图中用其伪代码进行了讨论:
![](img/16ff2f50-55be-44fd-8da5-661c7c7ea3a6.png)
# 类型生成
手写字符类型( <sub>![](img/4bd26cc3-1afa-4e60-9c69-ab95a767e148.png)</sub> )是字符的各个部分和子部分之间以及它们之间的关系的抽象架构。 反映现实生活中的字符书写过程,字符部分 <sub>![](img/4bd36e68-0edb-4b43-ab7d-8f01df86829c.png)</sub> 形成了笔向下移动到笔抬起操作的一个笔触。 这些字符笔划由 <sub>![](img/276a0dbc-2753-49fa-b02a-98432e35959d.png)</sub> 子部分组成,表示笔的短暂停顿。 生成新字符类型的伪代码显示在上图的 B 侧,其执行过程如下:
手写字符类型(`ψ`)是字符的各个部分和子部分之间以及它们之间的关系的抽象架构。 反映现实生活中的字符书写过程,字符部分`S[i]`形成了笔向下移动到笔抬起操作的一个笔触。 这些字符笔划由`S[i1], ..., S[in[i]]`子部分组成,表示笔的短暂停顿。 生成新字符类型的伪代码显示在上图的 B 侧,其执行过程如下:
1. 为了生成新的字符类型,模型首先为每个部分采样零件数( <sub>![](img/4a0131ee-92e9-4161-b0d9-2ababc8587f8.png)</sub> )和子零件数( <sub>![](img/e643c99c-dac0-4bc6-b5af-79da17d10d49.png)</sub> )。 采样参数来自它们在训练数据集中的经验分布。 训练数据还提供了子部分的预定义原语集。
1. 为了生成新的字符类型,模型首先为每个部分采样零件数(`k`)和子零件数(`n[i]`)。 采样参数来自它们在训练数据集中的经验分布。 训练数据还提供了子部分的预定义原语集。
2. 每个字符部分都是通过对预定义集合中的子部分进行采样而产生的,因此对下一个子部分进行采样的概率取决于前一个子部分。
3. 为零件![](img/926c9082-f02f-433c-b3e1-573e94e9d7da.png)采样了关系 <sub>![](img/28e359de-d165-4b4c-8034-d123dd8730a5.png)</sub> ,该关系定义了该零件与先前零件的连接方式。
3. 为零件`S[i]`采样了关系`R[i]`,该关系定义了该零件与先前零件的连接方式。
# 标记生成
字符标记 <sub>![](img/64c5d9e3-84b6-4eb5-bc34-815982591e9c.png)</sub> 是通过对墨水从笔到纸的流动方式进行建模而由零件和关系生成的。 用于标记生成的伪代码在上图的 B 侧进行了描述。 首先,将噪声(此处称为运动方差)添加到子零件的比例尺和控制点,以定义冲程(或零件)轨迹 <sub>![](img/2f393738-87bd-4110-aa8a-111d12ad37ee.png)</sub> 。 轨迹的精确开始位置 <sub>![](img/e50475f0-4cb3-4366-b921-914e606d0e42.png)</sub> 由关系 <sub>![](img/3d4cd9b5-2fcd-4be5-9b8d-33bdd263c77b.png)</sub> 决定。 最后,将变换 <sub>![](img/92d0def5-ef1f-4670-a510-e5d83f77e0ac.png)</sub> 用于减轻概率推断。
字符标记`θ[m]`是通过对墨水从笔到纸的流动方式进行建模而由零件和关系生成的。 用于标记生成的伪代码在上图的 B 侧进行了描述。 首先,将噪声(此处称为运动方差)添加到子零件的比例尺和控制点,以定义冲程(或零件)轨迹`s[m]`。 轨迹的精确开始位置`L[m]`由关系`R[i]`决定。 最后,将变换`A[m]`用于减轻概率推断。
# 图像生成
使用随机渲染功能生成原始二进制字符图像 <sub>![](img/838213b4-e82b-438b-ad80-f74977d9bdf6.png)</sub> ,该函数将笔划轨迹与灰度墨水映射。 这是通过为每个像素分配独立的伯努利概率来实现的。
使用随机渲染功能生成原始二进制字符图像`I[m]`,该函数将笔划轨迹与灰度墨水映射。 这是通过为每个像素分配独立的伯努利概率来实现的。
BPL 是一种高度直观的模型,可以在贝叶斯框架下使用简单的程序为概念建模。 从训练数据中学习概率分布的参数。 在分类和生成的单次计算机视觉任务上,该模型的性能与人类水平的性能相当,其数据需求远低于某些最新的深度学习模型。 这里研究的概率程序非常基础,适合于相当容易的字符识别任务。 BPL 框架支持设计更复杂的程序,这些程序可以对各种对象的复杂表示进行建模。 例如,可以使用此框架对在零件和关系方面具有清晰直观描述的对象(例如车辆,食品,动物,甚至人脸)进行建模。 为此,BPL 框架甚至支持建模抽象知识,例如自然语言语义和物理理论。 然而,这些概率程序需要对数据及其部分,子部分和关系进行手动标记,这是一个耗时的过程,而深度学习方法则是自己学习这些人类直观特征和深层抽象特征。
......@@ -143,19 +143,19 @@ K 次学习的一种非常常见的方法是训练具有相关任务的大型模
# 表示学习
在第一阶段(表示学习),使用大型数据集 <sub>![](img/4447bed3-8a05-47f1-9571-c7c71b113318.png)</sub> 训练 CNN( <sub>![](img/1b08704a-7c19-4972-bded-7880a2ed97ce.png)</sub> ),该数据集训练参数 <sub>![](img/171fc491-a5e2-4039-bd11-fed0c0df33c9.png) 网络的</sub><sub>![](img/22e5e308-79ce-4488-9661-eb1506788bcc.png)</sub> 。 此后,这些参数 <sub>![](img/984695cc-d7a0-4b0f-950a-a5cd284a0eea.png)</sub> 是固定的,并在以后的阶段中共享。 来自 CNN 最后一层的激活被映射到两组 softmax 层,由 <sub>![](img/e76ccc98-babb-4f2a-a1ff-91620dbfeb0f.png)</sub><sub>![](img/39ddcb33-0e04-4bc1-9b29-fdbcbf1b1930.png)</sub> 参数化。 参数 <sub>![](img/db026aae-0c13-4adf-9284-11c1eed3b0dd.png)</sub> 对应于大型数据集![](img/b5d92f8c-1cde-48fb-9597-ed1cc4ffeb8c.png)中的 <sub>![](img/7f499eb0-1597-4e09-a4b1-9cb696ad3663.png)</sub> 类,参数 <sub>![](img/920e25fb-08d6-463f-b6be-f900401ef7b4.png)</sub> 对应于 <sub>![](img/6a2a899f-e2b7-4fa9-959c-9fbf693499b7.png) K 次任务的数据集中的</sub><sub>![](img/d7d76711-7d54-477b-b992-047094305586.png)</sub> 。 如下图所示:
在第一阶段(表示学习),使用大型数据集`D_tilde`训练 CNN(`Φ[φ]`),该数据集训练参数`φ`的网络`W_tilde`。 此后,这些参数`φ`是固定的,并在以后的阶段中共享。 来自 CNN 最后一层的激活被映射到两组 softmax 层,由`W_tilde``W`参数化。 参数`W_tilde`对应于大型数据集`D_tilde`中的`C_tilde`类,参数`W`对应于 K 次任务的数据集`D`中的`C`。 如下图所示:
![](img/f23a6f16-745c-44e0-bc32-0ca3befa7b6a.png)
# 权重的概率模型
假设由于最大数据集 <sub>![](img/403250cc-771e-4aee-a332-d513338fbc0e.png)</sub> 而在第一阶段获知的 softmax 权重 <sub>![](img/daa1d70f-57d4-454b-a485-a90bcffda0f7.png)</sub> 的不确定性很小。 将此近似值与上图中的图形模型结构结合起来,我们可以摆脱原始数据集 <sub>![](img/68914ee7-4e63-4366-829d-00766394cd7a.png)</sub> ,并使用 <sub>![](img/78fc4afd-1c3e-4ddc-a0d3-b0c3204109fc.png)</sub> 的 MAP 估计值( <sub>![](img/9eb067e3-a492-42d9-ad39-01cc56e6c75e.png)</sub> )处于概念学习和 K 次学习阶段。 完整的概率模型遵循以下步骤:
假设由于最大数据集`D_tilde`而在第一阶段获知的 softmax 权重`W_tilde`的不确定性很小。 将此近似值与上图中的图形模型结构结合起来,我们可以摆脱原始数据集`D_tilde`,并使用`W_tilde`的 MAP 估计值(`W_MAP`)处于概念学习和 K 次学习阶段。 完整的概率模型遵循以下步骤:
1. K 次学习过程将信息合并到两个数据集 <sub>![](img/5bc40cb8-9d4b-48dd-a0b6-ec3398c621b5.png)</sub><sub>![](img/e7a90ae4-002f-42a9-8f17-5a5eee3be91b.png)</sub> 中,以在 <sub>![](img/bbb34fd1-52d7-4366-abe5-16af10f325df.png)</sub> 上生成后验分布:
1. K 次学习过程将信息合并到两个数据集`D_tilde``D`中,以在`W`上生成后验分布:
![](img/3f0ac346-6f71-413c-9364-4da122454208.png)
2. 从图形模型,在上图中,我们知道给定父级 <sub>![](img/7b2370cf-f622-4430-9500-86cb67eb70a8.png)</sub> 的情况, <sub>![](img/115c6a67-1eda-403e-a090-0120cf468e5b.png)</sub> 有条件地独立于 <sub>![](img/d79d013a-f05c-41bf-8f57-f8d8052e001a.png)</sub> 我们有以下内容:
2. 从图形模型,在上图中,我们知道给定父级`W`的情况,`D`有条件地独立于`D_tilde`我们有以下内容:
![](img/93b309a8-288c-4cd2-883f-f166d5f51c7d.png)
......@@ -163,34 +163,34 @@ K 次学习的一种非常常见的方法是训练具有相关任务的大型模
![](img/be56381d-889a-404b-95e6-1ebe2a7002bc.png)
3. 我们可以将术语 <sub>![](img/452631fb-b5f4-401e-805a-aaaa97177ef0.png)</sub> 吸收到比例常数中,从而使前面的方程式变为:
3. 我们可以将术语`P(D_tilde)`吸收到比例常数中,从而使前面的方程式变为:
![](img/a32d4c87-1014-4d11-b7c1-563e0c5bfd97.png)
主要挑战是在给定初始数据集 <sub>![](img/6b07497a-a294-4e52-a4cd-5f120f2400c4.png)</sub> 的情况下,计算超参数 <sub>![](img/49678953-86d3-4e5d-bfa7-04aca5204bb1.png)</sub> 的后验,这会使该模型的推理变得难以处理。 由于使用了较大的初始数据集来学习权重 <sub>![](img/622caf70-0ff2-4bb8-a0bc-70e73f8eb37b.png)</sub> ,后分布 <sub>![](img/b56ef95d-a1dd-4285-ab04-cbe7c5a22374.png)</sub> 可以通过其 MAP 估计值安全地近似,即 <sub>![](img/78989df7-e4a8-4cf8-9460-57ac752906f3.png)</sub> 因此,我们可以摆脱等式 2 中的 <sub>![](img/6b07497a-a294-4e52-a4cd-5f120f2400c4.png)</sub> ,并用![](img/622caf70-0ff2-4bb8-a0bc-70e73f8eb37b.png)代替。
主要挑战是在给定初始数据集`D_tilde`的情况下,计算超参数`θ`的后验,这会使该模型的推理变得难以处理。 由于使用了较大的初始数据集来学习权重`W_tilde`,后分布`P(W_tilde | D_tilde)`可以通过其 MAP 估计值安全地近似,即`P(W_tilde | D_tilde) ≈ δ(W - W_MAP)`。 因此,我们可以摆脱等式 2 中的`D_tilde`,并用`W_tilde`代替。
# 选择权重模型
给定图形模型,我们可以写出概念超参数( <sub>![](img/a5b9f950-edca-419e-9beb-3fd5941b04fe.png)</sub> )和模型权重( <sub>![](img/dabc99ca-1550-40cc-a387-2eb39cb08d6d.png)</sub><sub>![](img/50eead74-22ac-4b9e-bd06-c93973426872.png)</sub> 的联合分布 如下:
给定图形模型,我们可以写出概念超参数(`θ`)和模型权重(`W``W_tilde`)的联合分布如下:
![](img/cd64030c-1e6b-4a97-bc41-e5043bf94a5e.png)
做出两个简单但合理的假设以使机器在计算上易于处理:
* 首先,对于每个类别,从最后一个隐藏层到 softmax 的隐藏权重![](img/211df3d3-5161-4ea1-9817-744ffa03b82a.png)和![](img/2ea33525-3c2b-4bf2-b0f2-b7aefd75de02.png)被视为独立的。
* 第二,给定 <sub>![](img/72d34102-e950-4e1a-be0b-54c1c7eae0e8.png)</sub> ,![](img/3dcc7c39-84a8-4b6d-8c46-b6a07bf1062a.png)和![](img/f0d6f831-c56e-4a12-b50e-6cf22cfe5df4.png)的权重分布 <sub>![](img/17d14628-f0af-4b7d-8dfc-e442f14c3e8e.png)</sub><sub>![](img/d550187c-cd9b-408e-a349-1869a3530e60.png)</sub> 是相同的。
* 首先,对于每个类别,从最后一个隐藏层到 softmax 的隐藏权重`W``W_tilde`被视为独立的。
* 第二,给定`θ``P(w_tilde[c'] | θ)``P(w[c] | θ)`的权重分布`W``W_tilde`是相同的。
然后,等式 3 中的联合分布简化为:
![](img/0c67309f-24e7-462a-abaa-039674855756.png)
一个简单的高斯模型用于权重 <sub>![](img/5c3273bf-45ab-494b-8d0a-669c49792a29.png)</sub> 及其共轭正反 Wishart 先验 <sub>![](img/2c442aff-e757-45af-b871-286ce2998858.png)</sub> ,并估计 MAP 解的参数 <sub>![](img/61f679ab-9fdb-45ae-96ac-4ca2101e260d.png)</sub>
一个简单的高斯模型用于权重`P(w | θ) = N(w | μ, Σ)`及其共轭正反 Wishart 先验`P(θ) = P(μ, Σ) = NIW(μ[0], κ[0], Λ[0], v[0])`,并估计 MAP 解的参数`θ_MAP = {μ_MAP, Σ_MAP}`
这导致分发简化为以下内容:
![](img/4a4c76f8-4524-4ba0-bda8-afec7fa80efe.png)
K 次学习(等式 2)期间新权重![](img/211df3d3-5161-4ea1-9817-744ffa03b82a.png)的后验分布简化为以下表达式:
K 次学习(等式 2)期间新权重`W`的后验分布简化为以下表达式:
![](img/bd2213cb-753d-470a-994d-2b8cc7b6a7c4.png)
......@@ -200,19 +200,19 @@ K 次学习(等式 2)期间新权重![](img/211df3d3-5161-4ea1-9817-744ffa03
# 第一阶段–表示学习
最初,深度学习训练特征提取器 CNN <sub>![](img/457cb4e7-fafd-4698-9478-df8cee1a2017.png)</sub> 。 在以下阶段中使用输入图像(![](img/2aaaf738-92eb-4c77-86ce-f2740aee9a7a.png))的最后一层的激活 <sub>![](img/705b9f61-e64b-4a40-b3cd-dcb288d7b11c.png)</sub> 。 原始数据集中类别的 softmax 权重为 MAP 估计值 <sub>![](img/39788ebc-9ed9-4e50-b21d-b9f60b471c8c.png)</sub>
最初,深度学习训练特征提取器`Φ[φ]`。 在以下阶段中使用输入图像(`u`)的最后一层的激活`x = Φ[φ](u)`。 原始数据集中类别的 softmax 权重为 MAP 估计值`W_tilde_MAP`
# 第二阶段–概念学习
概率模型直接适合于 MAP 权重 <sub>![](img/01b11f3a-0686-4edc-b119-3eccb26d356b.png)</sub> 。 对于共轭模型,后验分布是通过解析获得的。 否则,将使用 <sub>![](img/520f8b84-704b-4501-b74d-294304b03b84.png)</sub> 的 MAP 估计值。
概率模型直接适合于 MAP 权重`P(θ | W_tilde) ∝ P(θ)P(W_tilde | θ)`。 对于共轭模型,后验分布是通过解析获得的。 否则,将使用`P(θ | W_tilde)`的 MAP 估计值。
# 第三阶段– K 次学习
在 softmax 权重![](img/95e5adea-fdbb-436c-88f6-f09289f49929.png)<sub>,![](img/61d62897-a8a3-40e0-921a-874ff6675301.png)</sub>上的后缀是难以处理的。 通过使用 MAP 估计 <sub>![](img/753955cd-a77f-44a0-9416-1c544281ad1f.png)</sub> 或通过采样 <sub>![](img/8d7be54d-e3d8-433a-b254-f77d0ab6bc06.png)</sub> 可以近似得出。 必须注意, <sub>![](img/56b110e9-b61a-43f4-bb35-e01064a4f8bf.png)</sub> 是针对共轭模型的分析。 但是,如果在阶段 2 中根据 MAP 估计来估计 <sub>![](img/8b45bb65-bd49-4e47-aab4-7b7202c19589.png)</sub> ,则如等式 4 中所述使用 <sub>![](img/9cbd85bb-2d4e-4eea-9724-09693a33bce5.png)</sub>
在 softmax 权重`W``P(W | D, W_tilde_MAP) ∝ P(W | W_tilde_MAP) Π[n = 1, ..., N] p(y[n] | x[n], w)`上的后缀是难以处理的。 通过使用 MAP 估计`W_MAP`或通过采样`W[m] = P(W | D, W_tilde_MAP)`可以近似得出。 必须注意,`P(W | W_tilde_MAP) = ∫P(W | θ)P(θ | W_tilde_MAP)dθ`是针对共轭模型的分析。 但是,如果在阶段 2 中根据 MAP 估计来估计`θ`,则如等式 4 中所述使用`P(W | W_tilde_MAP) ≈ P(W | θ_MAP)`
# 第四阶段 – K 次测试
K 次测试时间 <sub>![](img/c3734ba9-5a51-47ff-84f2-54c038662868.png)</sub> 的推断是难以理解的,因此此处使用近似值。 如果从阶段 3 开始使用 <sub>![](img/8ad46a3a-039b-4f21-9049-c640cc90b96b.png)</sub><sub>![](img/e631a1e5-efaa-41e0-b3af-d080d5df4b7a.png)</sub> )的 MAP 估计值,则 <sub>![](img/52f71d1d-16a5-446e-9276-d0e2faedd10c.png)</sub> 。 如果在阶段 3 中重新采样,则使用 <sub>![](img/858ad399-04bb-4869-aa0e-88ba105b2300.png)</sub>
K 次测试时间`P(y*, x*, D, W_tilde_MAP) = ∫p(y* | x*, W)P(W | D, W_tilde_MAP)dW`的推断是难以理解的,因此此处使用近似值。 如果从阶段 3 开始使用`W`的 MAP 估计值(`W_MAP`),则`P(y*, x*, D, W_tilde_MAP) = P(y* | x*, W_MAP)`。 如果在阶段 3 中重新采样,则使用`P(y*, x*, D, W_tilde_MAP) = 1/m Σ[m = 1, ..., M] p(y* | x*, W[m])`
在 miniImageNet 数据集(由 100 个类组成,每个类中包含 600 个图像)上,此方法可以一次学习一次和五次学习获得最先进的结果。 离统一概率模型和深度学习的领域又迈进了一步,将两者结合起来,可以开发出真正强大的模型,从而利用概率领域的强大数学保证和深度学习模型的强大健壮功能。 判别式 K 次学习方法仍然需要大量带标签的训练数据来训练基于深度学习的特征提取器。 另一方面,贝叶斯程序学习方法利用模型中的归纳偏差和手工设计的特征,因此需要较少的标注训练数据。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册