提交 3e8945ee 编写于 作者: W wizardforcel

2020-08-14 17:50:32

上级 3848cee4
......@@ -331,7 +331,7 @@ ResNet 已在[用于图像识别的深度残差学习](https://arxiv.org/abs/151
# Xception
Xception 是 Inception 的扩展,在 *Xception:具有深度可分离卷积的深度学习*中,FrançoisChollet,2016 年, [https://arxiv.org/abs/1610.02357](https://arxiv.org/abs/1610.02357) 中引入。 Xception 使用一种称为深度可分离卷积运算的新概念,该概念使其在包含 3.5 亿张图像和 17,000 个类别的大型图像分类数据集上的表现优于 Inception-v3。 由于 Xception 体系结构具有与 Inception-v3 相同数量的参数,因此性能的提高并不是由于容量的增加,而是由于模型参数的更有效使用。
Xception 是 Inception 的扩展,在 [Xception:具有深度可分离卷积的深度学习](https://arxiv.org/abs/1610.02357)(FrançoisChollet,2016 年)中引入。 Xception 使用一种称为深度可分离卷积运算的新概念,该概念使其在包含 3.5 亿张图像和 17,000 个类别的大型图像分类数据集上的表现优于 Inception-v3。 由于 Xception 体系结构具有与 Inception-v3 相同数量的参数,因此性能的提高并不是由于容量的增加,而是由于模型参数的更有效使用。
# 做好准备
......@@ -842,7 +842,7 @@ An example of dilated network
在每个步骤中,都会从网络预测一个值,并将其反馈到输入中。 同时,为下一步计算新的预测。 损失函数是当前步骤的输出与下一步的输入之间的交叉熵。
NSynth( [https://magenta.tensorflow.org/nsynth](https://magenta.tensorflow.org/nsynth)是 Google Brain 集团最近发布的 WaveNet 的改进版本,其目的不是查看因果关系,而是查看输入块的整个上下文。 神经网络是真正的,复杂的,如下图所示,但是对于本介绍性讨论而言,足以了解该网络通过使用基于减少编码/解码过程中的错误的方法来学习如何再现其输入。 阶段:
[NSynth](https://magenta.tensorflow.org/nsynth)是 Google Brain 集团最近发布的 WaveNet 的改进版本,其目的不是查看因果关系,而是查看输入块的整个上下文。 神经网络是真正的,复杂的,如下图所示,但是对于本介绍性讨论而言,足以了解该网络通过使用基于减少编码/解码过程中的错误的方法来学习如何再现其输入。 阶段:
![](img/f080e96c-b64c-4ac1-ba0a-18ecdcc2880e.png)
......@@ -938,8 +938,8 @@ WaveNet 是一种 ConvNet,其中卷积层具有各种扩张因子,从而使
![](img/9090591a-d0d7-41d2-ae68-f06f4626d09e.png)
2. 然后,您将看到如何将在一个上下文中学习的一个模型在另一个上下文中重新组合*。 例如,通过更改说话者身份,我们可以使用 WaveNet 以不同的声音说同一件事( [https://deepmind.com/blog/wavenet-generative-model-raw-audio/](https://deepmind.com/blog/wavenet-generative-model-raw-audio/) )。*
3. 另一个非常有趣的实验是学习乐器模型,然后以一种可以重新创建以前从未听说过的新乐器的方式对其进行重新混合。 这真的很酷,它为通往新的可能性开辟了道路,坐在我里面的前电台 DJ 无法抗拒超级兴奋。 例如,在此示例中,我们将西塔琴与电吉他结合在一起,这是一种很酷的新乐器。 不够兴奋? 那么,如何将弓弦低音与狗的吠声结合起来呢? ( [https://aiexperiments.withgoogle.com/sound-maker/view/](https://aiexperiments.withgoogle.com/sound-maker/view/)玩得开心!:
2. 然后,您将看到如何将在一个上下文中学习的一个模型在另一个上下文中重新组合。 例如,通过更改说话者身份,[我们可以使用 WaveNet 以不同的声音说同一件事](https://deepmind.com/blog/wavenet-generative-model-raw-audio/)
3. 另一个非常有趣的实验是学习乐器模型,然后以一种可以重新创建以前从未听说过的新乐器的方式对其进行重新混合。 这真的很酷,它为通往新的可能性开辟了道路,坐在我里面的前电台 DJ 无法抗拒超级兴奋。 例如,在此示例中,我们将西塔琴与电吉他结合在一起,这是一种很酷的新乐器。 不够兴奋? 那么,[如何将弓弦低音与狗的吠声结合起来呢](https://aiexperiments.withgoogle.com/sound-maker/view/)玩得开心!:
![](img/012fc57d-4750-42f9-974a-de4333bc4283.png)
......@@ -955,7 +955,7 @@ WaveNet 是一种 ConvNet,其中卷积层具有各种扩张因子,从而使
* 组合不同的异构输入要素以创建组合的要素空间。 对于此任务,我们将使用新的 Keras 2.0 功能 API。
* 附加一些其他的 Dense 和 Dropout 层,以创建多层感知器并增强我们的深度学习网络的功能。
为了简单起见,我们不会在 5 中重新训练组合网络,而是使用已经在线提供的预先训练的权重集( [https://avisingh599.github.io/deeplearning/visual- qa /](https://avisingh599.github.io/deeplearning/visual-qa/) )。 有兴趣的读者可以在由 N 个图像,N 个问题和 N 个答案组成的自己的训练数据集上对网络进行再训练。 这是可选练习。 该网络的灵感来自 *VQA:视觉问题解答*,Aishwarya Agrawal,Jiasen Lu,Stanislaw Antol,Margaret Mitchell,C.Lawrence Zitnick,Dhruv Batra,Devi Parikh,2015 年。( [http: //arxiv.org/pdf/1505.00468v4.pdf](http://arxiv.org/pdf/1505.00468v4.pdf) ):
为了简单起见,我们不会在 5 中重新训练组合网络,而是使用已经在线提供的[预先训练的权重集](https://avisingh599.github.io/deeplearning/visual-qa/)。 有兴趣的读者可以在由 N 个图像,N 个问题和 N 个答案组成的自己的训练数据集上对网络进行再训练。 这是可选练习。 该网络的灵感来自 [VQA:视觉问题解答](http://arxiv.org/pdf/1505.00468v4.pdf)(Aishwarya Agrawal,Jiasen Lu,Stanislaw Antol,Margaret Mitchell,C.Lawrence Zitnick,Dhruv Batra,Devi Parikh,2015 年):
![](img/a0988e7d-0ef5-4f89-a2f4-f8c0b2b887fe.png)
......@@ -987,7 +987,7 @@ from sklearn.externals import joblib
import PIL.Image
```
2. 定义一些常量。 请注意,我们假设我们的问题语料库具有`max_length_questions = 30`,并且我们知道我们将使用 VGG16 提取 4,096 个描述输入图像的特征。 另外,我们知道单词嵌入在`length_feature_space = 300`的空间中。 请注意,我们将使用从互联网下载的一组预训练权重( [https://github.com/iamaaditya/VQA_Demo](https://github.com/iamaaditya/VQA_Demo)
2. 定义一些常量。 请注意,我们假设我们的问题语料库具有`max_length_questions = 30`,并且我们知道我们将使用 VGG16 提取 4,096 个描述输入图像的特征。 另外,我们知道单词嵌入在`length_feature_space = 300`的空间中。 请注意,我们将使用从互联网下载的[一组预训练权重](https://github.com/iamaaditya/VQA_Demo)
```py
# mapping id -> labels for categories
......@@ -1083,7 +1083,7 @@ Layer (type) Output Shape Param #
_________________________________________
```
4. 使用 spaCy 获取单词嵌入,并将输入的问题映射到一个空格(`max_length_questions, 300`),其中`max_length_questions`是我们语料库中问题的最大长度,而 300 是 spaCy 产生的嵌入的尺寸。 在内部,spaCy 使用一种称为 gloVe 的算法( [http://nlp.stanford.edu/projects/glove/](http://nlp.stanford.edu/projects/glove/)。 gloVe 将给定令牌简化为 300 维表示。 请注意,该问题使用右 0 填充填充到`max_lengh_questions`
4. 使用 spaCy 获取单词嵌入,并将输入的问题映射到一个空格(`max_length_questions, 300`),其中`max_length_questions`是我们语料库中问题的最大长度,而 300 是 spaCy 产生的嵌入的尺寸。 在内部,spaCy 使用一种称为 [gloVe](http://nlp.stanford.edu/projects/glove/) 的算法。 gloVe 将给定令牌简化为 300 维表示。 请注意,该问题使用右 0 填充填充到`max_lengh_questions`
```py
'''embedding'''
......@@ -1229,9 +1229,9 @@ print str(round(y_output[0,label]*100,2)).zfill(5), "% ", labelencoder.inverse_t
# 还有更多...
在互联网上,您可以找到 Avi Singh( [https://avisingh599.github.io/deeplearning/visual-qa/](https://avisingh599.github.io/deeplearning/visual-qa/)进行的更多实验,其中比较了不同的模型,包括简单的“袋装” 语言的“单词”与图像的 CNN,仅 LSTM 模型以及 LSTM + CNN 模型-类似于本食谱中讨论的模型。 博客文章还讨论了每种模型的不同训练策略。
在互联网上,您可以找到 [Avi Singh](https://avisingh599.github.io/deeplearning/visual-qa/) 进行的更多实验,其中比较了不同的模型,包括简单的“袋装” 语言的“单词”与图像的 CNN,仅 LSTM 模型以及 LSTM + CNN 模型-类似于本食谱中讨论的模型。 博客文章还讨论了每种模型的不同训练策略。
除此之外,有兴趣的读者可以在 Internet( [https://github.com/anujshah1003/VQA-Demo-GUI](https://github.com/anujshah1003/VQA-Demo-GUI) )上找到一个不错的 GUI,它建立在 Avi Singh 演示的顶部,使您可以 交互式加载图像并提出相关问题。 还提供了 YouTube 视频( [https://www.youtube.com/watch?v=7FB9PvzOuQY](https://www.youtube.com/watch?v=7FB9PvzOuQY)
除此之外,有兴趣的读者可以在[互联网](https://github.com/anujshah1003/VQA-Demo-GUI)上找到一个不错的 GUI,它建立在 Avi Singh 演示的顶部,使您可以 交互式加载图像并提出相关问题。 还提供了 [YouTube 视频](https://www.youtube.com/watch?v=7FB9PvzOuQY)
# 通过六种不同方式对视频进行预训练网络分类
......@@ -1306,4 +1306,4 @@ python scripts/run_all_pipeline.py -i path/to/test/video.mp4
# 还有更多...
CNN-LSTM 体系结构是新的 RNN 层,其中输入转换和递归转换的输入都是卷积。 尽管名称非常相似,但如上所述,CNN-LSTM 层与 CNN 和 LSTM 的组合不同。 该模型在论文*卷积 LSTM 网络:降水临近预报的机器学习方法*中进行了描述,史兴建,陈周荣,王浩,杨天彦,黄伟坚,胡旺春,2015 年 ,( [https://arxiv.org/abs/1506.04214](https://arxiv.org/abs/1506.04214) ),并且在 2017 年,有些人开始尝试使用此模块进行视频实验,但这仍然是一个活跃的研究领域。
\ No newline at end of file
CNN-LSTM 体系结构是新的 RNN 层,其中输入转换和递归转换的输入都是卷积。 尽管名称非常相似,但如上所述,CNN-LSTM 层与 CNN 和 LSTM 的组合不同。 该模型在论文[卷积 LSTM 网络:降水临近预报的机器学习方法](https://arxiv.org/abs/1506.04214)(史兴建,陈周荣,王浩,杨天彦,黄伟坚,胡旺春,2015 年)中进行了描述,并且在 2017 年,有些人开始尝试使用此模块进行视频实验,但这仍然是一个活跃的研究领域。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册