提交 a2dd301c 编写于 作者: W wizardforcel

2021-01-02 18:47:35

上级 ec8bbb3a
......@@ -28,7 +28,7 @@ RBM 是一种生成型随机神经网络。 通过说生成式,它表明网络
![](img/7e117abf-04cc-407c-b57b-1683118b2ea8.png)
通常,RBM 由一个输入层组成,该输入层通常称为可见层(**`v[1]`****v2****v3****v4** 和一个隐藏层(**`h[1]`****h2**`h`[HTG18 例如,] 3 ,`h``4`。 RBM 模型由与可见层和隐藏层之间的连接相关的权重 *W = {* ![](img/c025997f-d7cf-4dd4-af22-951256ebeee8.png) *}* 以及偏差 *a = [ ![](img/48726e5d-90ac-4c3b-be13-9f3ddfe1db4c.png)* 用于可见层,偏置 *b = ![](img/1a0d6ec3-c9b8-41fc-bbf5-f0e6aa8a39a5.png)* 用于隐藏层。
通常,RBM 由一个输入层组成,该输入层通常称为可见层(`v[1], v[2], v[3], v[4]`)和一个隐藏层(`h[1], h[2], h[3], h[4]`)。 RBM 模型由与可见层和隐藏层之间的连接相关的权重`W = {w[ij]}, 1 <= i <= |V|, 1 <= j <= |H|`以及偏差`a = {a[i]}, 1 <= i <= |V|`用于可见层,偏置`b = {b[j]}, 1 <= j <= |H|`用于隐藏层。
RBM 中显然没有输出层,因此学习与前馈网络中的学习有很大不同,如下所示:
......@@ -72,23 +72,23 @@ RBM 中显然没有输出层,因此学习与前馈网络中的学习有很大
为了使学习 Boltzmann 机器模型更容易,Paul Smolensky 于 1986 年首次发明了一种称为 Harmonium 的连接受限的版本。 在 2000 年中期,Geoffrey Hinton 和其他研究人员发明了一种效率更高的体系结构,该体系结构仅包含一个隐藏层,并且不允许隐藏单元之间进行任何内部连接。 从那时起,RBM 被应用于各种有监督的学习任务中,包括:
* 图像分类,(*使用判别受限的 Boltzmann 机器进行分类*,由 H. Larochelle 和 Y. Bengio 撰写,第 25 届国际机器学习会议论文集,2008:536-543
* 语音识别(*,使用 N. Jaitly 和 G.Hinton,使用受限的 Boltzmann 机器*学习语音声波的更好表示,国际声学,语音和信号处理会议,2011:5884-5887
* 图像分类(《使用判别受限的 Boltzmann 机器进行分类》
* 语音识别(《使用受限的 Boltzmann 机器学习语音声波的更好表示》
它们也已应用于无人监督的学习任务,包括以下内容:
* 降维(*使用神经网络降低数据的维数*,G。Hinton 和 R.Salakhutdinov,科学,2006 年 7 月:504-507
* 特征学习(A.Coates 等人,国际人工智能与统计会议 2011:215-223,无监督特征学习中的单层网络分析 *n),当然还有协作过滤和推荐系统 ,我们将在本节之后进行处理*
* 降维(《使用神经网络降低数据的维数》
* 特征学习(《无监督特征学习中的单层网络分析》),当然还有协作过滤和推荐系统 ,我们将在本节之后进行处理
您可能会注意到,RBM 有点*浅*,只有一个隐藏层。 Geoffrey Hinton 在 2006 年推出了称为[DBN]*深*版本的 RBM。DBN 可以看作是堆叠在一起的一组 RBM,其中一个 RBM 的隐藏层是下一个 RBM 的可见层。 隐藏层充当分层特征检测器。 DBN 的一般图如下所示:
您可能会注意到,RBM 有点*浅*,只有一个隐藏层。 Geoffrey Hinton 在 2006 年推出了称为 DBN *深*版本的 RBM。DBN 可以看作是堆叠在一起的一组 RBM,其中一个 RBM 的隐藏层是下一个 RBM 的可见层。 隐藏层充当分层特征检测器。 DBN 的一般图如下所示:
![](img/51a6bfe7-88bd-47ad-b74b-3bd214cce072.png)
DBN 也有许多有趣的应用程序,例如:
* 电话识别(*用于电话识别的深度信念网络*,由 A. Mohamed 等人在 NIPS 语音识别和相关应用深度学习研讨会的论文集中进行,2009 年
* 脑电信号(*脑电图的深层信念网络:对近期贡献和未来展望的回顾*,作者:F。Movahedi 等人,在 IEEE Biomedical and Health Informatics,2018 年 5 月; 22(3):642- 652
* 自然语言理解(*深度信念网络对自然语言理解*的应用,作者 R. Sarikaya 等人,在 IEEE / ACM 音频,语音和语言处理交易中,2014 年 4 月; 22(4):778 -784
* 电话识别(《用于电话识别的深度信念网络》
* 脑电信号(《脑电图的深层信念网络:对近期贡献的回顾和未来展望》
* 自然语言理解(《深度信念网络在自然语言理解上的应用》
按照承诺,我们现在将详细研究 RBM 及其深版本 DBN,然后将其应用于实际问题。
......@@ -166,7 +166,7 @@ DBN 也有许多有趣的应用程序,例如:
... return v0, prob_h_v0, vk, prob_h_vk
```
给定输入向量 *vk* ,吉布斯采样开始于计算`P(h | v)`。 然后执行 Gibbs 步骤。 在每个吉布斯步骤中,隐藏层`h`是根据`P(h | v)`通过伯努利采样获得的; 计算条件概率`P(v | h)`并用于生成可见矢量`v`的重建版本; 并根据最新的可见矢量更新条件概率`P(h | v)`。 最后,它返回 Gibbs 采样之前和之后的可见向量,以及 Gibbs 采样之前和之后的条件概率`P(h | v)`
给定输入向量`vk`,吉布斯采样开始于计算`P(h | v)`。 然后执行 Gibbs 步骤。 在每个吉布斯步骤中,隐藏层`h`是根据`P(h | v)`通过伯努利采样获得的; 计算条件概率`P(v | h)`并用于生成可见矢量`v`的重建版本; 并根据最新的可见矢量更新条件概率`P(h | v)`。 最后,它返回 Gibbs 采样之前和之后的可见向量,以及 Gibbs 采样之前和之后的条件概率`P(h | v)`
现在,我们实现了条件概率`P(v | h)``P(h | v)`的计算,以及伯努利采样:
......@@ -294,7 +294,7 @@ DBN 也有许多有趣的应用程序,例如:
![](img/166067d5-6d17-45ad-9449-6dbb6edad311.png)
在此示例中,输入内容包括六部电影,其中三部被点赞(用`1`表示),两部不喜欢(用`0`表示),而另一部未分级(用 **?**)。 该模型接受输入并对其进行重构,包括*缺少的*电影。
在此示例中,输入内容包括六部电影,其中三部被点赞(用`1`表示),两部不喜欢(用`0`表示),而另一部未分级(用`?`表示)。 该模型接受输入并对其进行重构,包括*缺少的*电影。
因此,模型如何知道丢失的单位应为`0`(或`1`)? 回忆每个隐藏的单元都连接到所有可见的单元。 在训练过程中,一个隐藏的单位试图发现一个潜在因素,该潜在因素可以解释数据中的一个属性,或本例中的所有电影。 例如,一个隐藏的二元单位可以了解电影类型是否是喜剧电影,是否属于正义电影,主题是否为复仇电影或其他任何捕捉到的东西。 在重构阶段,将为输入分配一个新值,该值是根据代表所有这些潜在因素的隐藏单位计算得出的。
......@@ -325,7 +325,7 @@ DBN 也有许多有趣的应用程序,例如:
我们可以建立 RBM 模型,根据用户和其他人的电影评分推荐用户尚未观看的电影。
您可能会注意到输入额定值不是二进制的。 我们如何将它们提供给 RBM 模型? 最简单的解决方法是二进制化,例如,将大于三的等级转换为`1`(类似),否则将其转换为`0`(不喜欢)。 但是,这可能会导致信息丢失。 或者,在我们的解决方案中,我们将原始评级缩放到`[0,1]`范围,并将每个重新缩放的评级视为获得`1`的概率。 也就是说,`v`= *P(v = 1 | h)*,不需要伯努利采样。
您可能会注意到输入额定值不是二进制的。 我们如何将它们提供给 RBM 模型? 最简单的解决方法是二进制化,例如,将大于三的等级转换为`1`(类似),否则将其转换为`0`(不喜欢)。 但是,这可能会导致信息丢失。 或者,在我们的解决方案中,我们将原始评级缩放到`[0,1]`范围,并将每个重新缩放的评级视为获得`1`的概率。 也就是说,`v = P(v = 1 | h)`,不需要伯努利采样。
现在,让我们加载数据集并构建训练数据集。 不要忘了跟踪已分级的电影,因为并非所有电影都已分级:
......@@ -398,7 +398,7 @@ Number of 1.0 ratings: 226309
... return v0, prob_h_v0, vk, prob_h_vk
```
我们采用 *v = P(v = 1 | h)*并使用`0`恢复等级,如下所示:
我们采用`v = P(v = 1 | h)`并使用`0`恢复等级,如下所示:
```py
>>> def _optimize(self, v):
......@@ -747,13 +747,13 @@ AE 和 RBM 都旨在最小化重构误差,但是 AE 与 RBM 在以下方面有
《无监督预训练的一种方法》首次引入自编码器作为神经网络中模块化学习。 然后《通过多层感知器进行的自动关联和奇异值分解》将它们用于降维,《自编码器,最小描述长度和亥姆霍兹 *F* 能量》将其用于线性特征学习。
自编码器随着时间的推移而发展,在过去的十年中提出了几种变体。 在 2008 年,P。Vincent 等人。 *中介绍了**去噪自编码器**(**DAE**),并使用降噪自编码器*构成了稳健的功能(第 25 届国际机器学习会议论文集,1096-1103), 网络被迫从损坏的版本中重建输入数据,以便他们可以学习更强大的功能。
自编码器随着时间的推移而发展,在过去的十年中提出了几种变体。 在 2008 年,P。Vincent 等人。 《使用降噪自编码器提取和构成稳健特征》介绍了**去噪自编码器****DAE**), 网络被迫从损坏的版本中重建输入数据,以便他们可以学习更强大的功能。
I.Goodfellow 等。 2009 年,开发了**稀疏自编码器**,它通过引入稀疏约束来扩大隐藏表示。 可以在*测量深度网络中的不变性*中找到详细信息(神经信息处理系统的最新进展 22,NIPS 2009,646-654)
I.Goodfellow 等开发了**稀疏自编码器**,它通过引入稀疏约束来扩大隐藏表示。 可以在《测量深度网络中的不变性》中找到详细信息
**压缩自编码器**由 S. Rifai 在*压缩自编码器中提出:* E *特征提取期间的 xplicit 不变性*(第 28 届国际机器学习会议论文集,2011 年 ; 833-840)。 将惩罚项添加到成本函数,以便网络能够提取对输入数据周围的微小变化不太敏感的表示形式。
**压缩自编码器**由 S. Rifai 在《压缩自编码器:特征提取期间的显式不变性》中提出。 将惩罚项添加到成本函数,以便网络能够提取对输入数据周围的微小变化不太敏感的表示形式。
2013 年,在*自编码变体贝叶斯*中,提出了一种称为**变分自编码器****VAE**)的特殊类型(作者:D。Kingma 和 M. Welling, 第二届国际学习表示会议),其中考虑了潜在变量的概率分布。
2013 年,在《自编码变分贝叶斯》中,提出了一种称为**变分自编码器****VAE**)的特殊类型,其中考虑了潜在变量的概率分布。
我们将在 Keras 中实现 AE 的几种变体,并使用它们来解决信用卡欺诈检测问题。
......@@ -1275,4 +1275,4 @@ Area under precision-recall curve: 0.8311662962345293
感谢 Shyong Lam 和 Jon Herlocker 清理并生成了 MovieLens 数据集:
F. Maxwell Harper 和 Joseph A. Konstan。 2015 年。 *MovieLens 数据集:历史和上下文。 ACM 交互式智能系统交易*(TiiS)5、4,第 19 条(2015 年 12 月),共 19 页。 DOI = http://dx.doi.org/10.1145/2827872
\ No newline at end of file
`F. Maxwell Harper and Joseph A. Konstan. 2015. The MovieLens Datasets: History and Context. ACM Transactions on Interactive Intelligent Systems (TiiS) 5, 4, Article 19 (December 2015), 19 pages. DOI=http://dx.doi.org/10.1145/2827872`
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册