2020-09-03 15:59:24

e47bb02c · wizardforcel · 7eee505c · e47bb02c · e47bb02c · e47bb02c
10 changed file
--- a/docs/dl-cv/00.md
+++ b/docs/dl-cv/00.md
@@ -18,13 +18,13 @@

 第 5 章，“语义分割”涵盖了像素级图像分割。 读者将获得有关分割技术的知识，并训练用于医学图像分割的模型。

-第 6 章，“相似性学习”讨论了关于相似性学习的。 读者将学习相似度匹配以及如何训练人脸识别模型。 示出了训练人脸地标的模型。
+第 6 章，“相似性学习”讨论了关于相似性学习的。 读者将学习相似度匹配以及如何训练人脸识别模型。 示出了训练人脸标志的模型。

 第 7 章，“图像字幕”是关于生成或选择图像字幕的 。 读者将学习自然语言处理技术以及如何使用这些技术为图像生成字幕。

 第 8 章，“生成模型”讨论了关于出于各种目的生成合成图像的问题。 读者将了解什么是生成模型，并将其用于图像生成应用，例如样式转换，训练数据等。

-第 9 章，“视频分类”涵盖了用于视频数据的 计算机视觉技术。 读者将了解解决视频与图像问题之间的主要区别，并实施视频分类技术。
+第 9 章，“视频分类”涵盖了用于视频数据的计算机视觉技术。 读者将了解解决视频与图像问题之间的主要区别，并实施视频分类技术。

 第 10 章，“部署”讨论了深度学习模型的部署步骤。 读者将学习如何在各种平台上部署训练有素的模型并优化速度。

@@ -53,7 +53,7 @@ wget http://www.robots.ox.ac.uk/~vgg/data/pets/daimg.tar.gz
 wget http://www.robots.ox.ac.uk/~vgg/data/pets/data/annotations.tar.gz
 ```

-**粗体**：表示您在屏幕上看到的新术语，重要单词或顺序。 例如，菜单或对话框中的单词会出现在这样的文本中。 这是一个示例：“完成后，通过单击操作|实例状态|终端 来终止实例。”
+**粗体**：表示您在屏幕上看到的新术语，重要单词或顺序。 例如，菜单或对话框中的单词会出现在这样的文本中。 这是一个示例：“完成后，通过单击‘操作 | 实例状态 | 终端’来终止实例。”

 警告或重要提示如下所示。


--- a/docs/dl-cv/01.md
+++ b/docs/dl-cv/01.md
@@ -13,7 +13,7 @@

 # 感知器

-人工神经元或感知器接受多个输入并执行加权求和以产生输出。 感知器的重量是在训练过程中确定的，并基于训练数据。 以下是感知器的 图：
+人工神经元或感知器接受多个输入并执行加权求和以产生输出。 感知器的重量是在训练过程中确定的，并基于训练数据。 以下是感知器的图：

 ![](img/1e292483-bf0f-4474-9ee4-9f18966861b6.png)

@@ -45,7 +45,7 @@ Sigmoid 可以看作是平滑的阶跃函数，因此可以微分。 Sigmoid 可

 # 整流线性单位（ReLU）

-ReLu 可以让大量数字通过。 这会使一些神经元陈旧，并且它们不会发射。 这增加了稀疏性，因此很好。 `ReLU`将输入`x`映射到`max(0, x)`，即，它们将负输入映射为 0，而正输入为 输出无任何变化，如下图所示：
+ReLu 可以让大量数字通过。 这会使一些神经元陈旧，并且它们不会发射。 这增加了稀疏性，因此很好。 `ReLU`将输入`x`映射到`max(0, x)`，即，它们将负输入映射为 0，而正输入无任何变化，如下图所示：

 ![](img/f869a450-2d05-4d78-9ad6-8cc941adcfff.png)


--- a/docs/dl-cv/02.md
+++ b/docs/dl-cv/02.md
@@ -538,7 +538,7 @@ ImageNet 是具有 14,197,122 图像，21,841 个同义词集索引的计算机

 ![](img/12771464-5c49-48ae-b9e4-f512ed8f42aa.png)

-经 Iandola 许可复制 等。
+经 Iandola 等人许可复制

 # 空间转换器网络

@@ -546,7 +546,7 @@ Jaderberg 等人提出的[**空间转换器网络**](https://arxiv.org/pdf/1506.

 ![](img/177e14e5-4bc8-4b5c-9e0f-754188739941.png)

-经 Jaderberg 许可复制 等。
+经 Jaderberg 等人许可复制

 # DenseNet 模型

@@ -556,13 +556,13 @@ Jaderberg 等人提出的[**空间转换器网络**](https://arxiv.org/pdf/1506.

 ![](img/2ff8e417-48ae-491e-9abc-78bccdcdc61a.png)

-经 Huang 许可复制 等。
+经 Huang 等人许可复制

 这样，它提供了多个优点，例如更平滑的渐变，特征变换等。 这也减少了参数的数量：

 ![](img/feec4f72-5ef2-4eb0-a647-21f56d254fef.png)

-经 Huang 许可复制 等。
+经 Huang 等人许可复制

 我们已经介绍了图像分类任务的所有最新算法。 任何体系结构均可用于图像分类任务。 在下一节中，我们将看到如何使用这些先进的体系结构训练模型来预测宠物，并提高准确性。

@@ -595,7 +595,7 @@ copy_files('dog', 1000, 1400, 'test')
 copy_files('cat', 1000, 1400, 'test')
 ```

-对于我们的实验，我们将仅使用 1000 张猫和狗的图像。 因此，将图像 0–999 从下载的文件夹复制到`cats`下新创建的`train` 文件夹。 同样，将 1,000–1,400 复制到`data/test/cat`，将`train/dogs`中的 1 0–999 和`data/test/dog`中的 1,000–1,400 复制，这样我们每个班级都有 1,000 个训练示例 每个类别 400 个验证示例。
+对于我们的实验，我们将仅使用 1000 张猫和狗的图像。 因此，将图像 0–999 从下载的文件夹复制到`cats`下新创建的`train` 文件夹。 同样，将 1,000–1,400 复制到`data/test/cat`，将`train/dogs`中的 1 0–999 和`data/test/dog`中的 1,000–1,400 复制，这样我们每个类别都有 1,000 个训练示例和 400 个验证示例。

 # 使用简单的 CNN 进行基准测试


--- a/docs/dl-cv/03.md
+++ b/docs/dl-cv/03.md
@@ -95,7 +95,7 @@ TensorBoard 说明了代码的输出
 image_width, image_height = 128, 128 vgg_model = tf.keras.applications.vgg16.VGG16(include_top=False)
 ```

-图层由以图层名称作为键的字典组成，模型中的图层以权重作为键值，以方便访问。 现在，我们将从第五个块 `block5_conv1` 中获取第一卷积层，以计算  可视化效果。 输入和输出在此处定义：
+图层由以图层名称作为键的字典组成，模型中的图层以权重作为键值，以方便访问。 现在，我们将从第五个块 `block5_conv1` 中获取第一卷积层，以计算可视化效果。 输入和输出在此处定义：

 ```py
 input_image = vgg_model.input

--- a/docs/dl-cv/04.md
+++ b/docs/dl-cv/04.md
@@ -92,7 +92,7 @@ def calculate_iou(gt_bb, pred_bb):
    return iou
 ```

-真实情况和预测的边界框堆叠在一起。 然后在处理负面积的情况下计算面积。 当边界框坐标不正确时，可能会出现负区域。 框的右侧坐标很多发生在从左到左的坐标上。 由于没有保留边界框的结构，因此必然会出现负区域。 计算联合和交叉区域，然后进行最终的 IoU 计算，该计算是与**真实情况**的预测面积与 总面积。 IoU 计算可以与算法结合使用，以训练定位问题。
+真实情况和预测的边界框堆叠在一起。 然后在处理负面积的情况下计算面积。 当边界框坐标不正确时，可能会出现负区域。 框的右侧坐标很多发生在从左到左的坐标上。 由于没有保留边界框的结构，因此必然会出现负区域。 计算联合和交叉区域，然后进行最终的 IoU 计算，该计算是**真实情况**和预测的重合面积与总面积之比。 IoU 计算可以与算法结合使用，以训练定位问题。

 # 平均平均精度


--- a/docs/dl-cv/06.md
+++ b/docs/dl-cv/06.md
@@ -250,7 +250,7 @@ Wang 等人提出的 [DeepRank](https://users.eecs.northwestern.edu/~jwa368/pdfs

 # 面对地标和属性

-人脸地标是人脸的空间点。 空间点对应于各种人脸特征的位置，例如眼睛，眉毛，鼻子，嘴巴和下巴。 点数可能会从 5 到 78 不等，具体取决于注释。 人脸界标也称为**基准点**，**人脸关键点**或**人脸姿势**。 人脸标志具有许多应用，如下所示：
+人脸标志是人脸的空间点。 空间点对应于各种人脸特征的位置，例如眼睛，眉毛，鼻子，嘴巴和下巴。 点数可能会从 5 到 78 不等，具体取决于注释。 人脸界标也称为**基准点**，**人脸关键点**或**人脸姿势**。 人脸标志具有许多应用，如下所示：

 *   人脸对齐以更好地进行人脸验证或识别
 *   跟踪视频中的人脸
@@ -259,7 +259,7 @@ Wang 等人提出的 [DeepRank](https://users.eecs.northwestern.edu/~jwa368/pdfs

 接下来，我们将看到一些带有基准点注释的数据库。

-# 多任务人脸地标（MTFL）数据集
+# 多任务人脸标志（MTFL）数据集

 `MTFL`数据集由 Zhang 等人提出。 并带有五个人脸标志以及性别，微笑，眼镜和头部姿势注释。 数据库中存在 12,995 张人脸。 可以从[这里](http://mmlab.ie.cuhk.edu.hk/projects/TCDCN/data/MTFL.zip)下载`MTFL`。

@@ -275,9 +275,9 @@ Wang 等人提出的 [DeepRank](https://users.eecs.northwestern.edu/~jwa368/pdfs

 Kaggle 关键点数据集带有 15 个人脸标志。 数据集中存在 8,832 张图像。 可以从[这个链接](https://www.kaggle.com/c/facial-keypoints-detection/data)下载。 图像尺寸为 96 像素 x 96 像素。

-# 多属性人脸地标（MAFL）数据集
+# 多属性人脸标志（MAFL）数据集

-Zhang 等人提出的`MAFL`数据集。 带有 5 种具有 40 种不同人脸属性的人脸地标。 数据库中存在 20,000 张人脸。 可以从[这里](https://github.com/zhzhanp/TCDCN-face-alignment)下载`MAFL`。 这是`MAFL`中存在的图像的示例：
+Zhang 等人提出的`MAFL`数据集。 带有 5 种具有 40 种不同人脸属性的人脸标志。 数据库中存在 20,000 张人脸。 可以从[这里](https://github.com/zhzhanp/TCDCN-face-alignment)下载`MAFL`。 这是`MAFL`中存在的图像的示例：

 ![](img/0c8f1dd3-a580-402f-a9e2-66ccff7c19b1.png)


--- a/docs/dl-cv/07.md
+++ b/docs/dl-cv/07.md
@@ -101,7 +101,7 @@ Vinyals 等人在[论文](https://arxiv.org/pdf/1411.4555.pdf)中提出了一种

 # 使用图像排名创建字幕

-Ordonez 等人在[论文](http://papers.nips.cc/paper/4470-im2text-describing-images-using-1-million-captioned-photographs.pdf)中，提出了一种方法 对图像进行排名，然后生成标题。 此过程的流程如下所示：
+Ordonez 等人在[论文](http://papers.nips.cc/paper/4470-im2text-describing-images-using-1-million-captioned-photographs.pdf)中，提出了一种方法对图像进行排名，然后生成标题。 此过程的流程如下所示：

 ![](img/5b285990-9992-4773-833a-720904a28188.png)


--- a/docs/dl-cv/08.md
+++ b/docs/dl-cv/08.md
@@ -26,7 +26,7 @@

 # 预测视频中的下一帧

-可以使用生成模型从合成视频集中预测未来的帧。 [在下面由 Lotter 等人提出的图像中](https://arxiv.org/pdf/1511.06380.pdf)，左侧的图像是前一帧的模型，而右侧的图像相对于前一帧有两种算法 基本事实：
+可以使用生成模型从合成视频集中预测未来的帧。 [在下面由 Lotter 等人提出的图像中](https://arxiv.org/pdf/1511.06380.pdf)，左侧的图像是前一帧的模型，而右侧有两种与基本事实比较的算法：

 ![](img/af300a68-236d-43de-b849-f7fbad8dd6b8.png)

@@ -142,7 +142,7 @@

 # 内容丢失

-由于像素不是一个好的选择，我们将使用各个图层的 CNN 功能，因为它们可以更好地表示内容。 如 第 3 章，“图像检索”， 所示，初始层具有高频，例如边缘，拐角和纹理。 后面的层代表对象，因此更适合内容。 后者可以比像素更好地将对象与对象进行比较。 但是为此，我们需要先使用以下代码导入所需的库：
+由于像素不是一个好的选择，我们将使用各个图层的 CNN 功能，因为它们可以更好地表示内容。 如第 3 章，“图像检索”， 所示，初始层具有高频，例如边缘，拐角和纹理。 后面的层代表对象，因此更适合内容。 后者可以比像素更好地将对象与对象进行比较。 但是为此，我们需要先使用以下代码导入所需的库：

 ```py
 import numpy as np
@@ -478,12 +478,12 @@ Current loss value: 203.045211792

 现在，我们将结束样式转换部分。 此操作确实很慢，但可以处理任何图像。 在下一节中，我们将看到如何使用类似的想法来创建超分辨率网络。 有几种方法可以改善这种情况，例如：

-*   将 高斯 滤镜添加到随机图像
+*   将高斯滤镜添加到随机图像
 *   为图层添加不同的权重
 *   可以使用不同的图层和权重来满足
 *   初始化图像而不是随机图像
 *   颜色可以保存
-*   掩码可以用于 的，用于指定所需的内容
+*   掩码可以用于指定所需的内容
 *   任何草图都可以转换为绘画
 *   绘制草图并创建图像


--- a/docs/dl-cv/09.md
+++ b/docs/dl-cv/09.md
@@ -94,7 +94,7 @@ frame_no = 0 while True:

 # 融合并行 CNN 进行视频分类

-就帧而言，由于图像的下采样，视频的预测可能不会产生良好的结果，从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此，[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流 并行运行进行视频分类。 进行逐帧预测有两个问题，即：
+就帧而言，由于图像的下采样，视频的预测可能不会产生良好的结果，从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此，[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流，并行运行视频分类。 进行逐帧预测有两个问题，即：

 *   由于较大的 CNN 架构，预测可能需要很长时间
 *   独立的预测会沿时间维度丢失信息
@@ -246,7 +246,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,

 # 多峰融合

-[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态视频融合 分类。 这四个模型分别是 3D 卷积特征，2D 光流，3D 光流和 2D 卷积特征。
+[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态视频融合分类。 这四个模型分别是 3D 卷积特征，2D 光流，3D 光流和 2D 卷积特征。

 该方法的数据流如下所示：

@@ -312,7 +312,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,

 # 跟踪人脸标志

-视频中的人脸分析需要人脸检测，界标检测，姿势估计，验证等。 计算地标对于捕获人脸动画，人机交互和人类活动识别尤其重要。 除了在帧上进行计算外，还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用联合估计的检测和跟踪方法 使用 RNN 的视频中的人脸地标。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算，时间方面在 RNN 中编码。 综合数据用于训练。
+视频中的人脸分析需要人脸检测，界标检测，姿势估计，验证等。 计算地标对于捕获人脸动画，人机交互和人类活动识别尤其重要。 除了在帧上进行计算外，还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用 RNN 的视频中的人脸标志和联合估计的检测和跟踪方法 。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算，时间方面在 RNN 中编码。 综合数据用于训练。

 # 分割影片


--- a/docs/dl-cv/10.md
+++ b/docs/dl-cv/10.md
@@ -156,9 +156,9 @@ Google Cloud Platform（GCP）是 Google 提供的云平台，具有与 AWS 类

 GCP 具有**云机器学习引擎**，可在使用 TensorFlow 时为我们提供帮助。 GCP 的三个组件可以一起用于构建培训和部署基础架构：

-1.  用于  的 Cloud DataFlow 预处理图像
-2.  用于  和  培训和部署模型的云机器学习引擎
-3.  Google Cloud Storage 用于存储培训数据，代码和结果
+1.  用于预处理图像的 Cloud DataFlow 
+2.  用于培训和部署模型的云机器学习引擎
+3.  用于存储培训数据，代码和结果的 Google Cloud Storage

 可以在[这个页面](https://cloud.google.com/ml-engine/docs/flowers-tutorial)上找到使用云机器学习引擎建立自定义图像分类模型的出色教程。

@@ -182,19 +182,19 @@ Jetson TX2 是由 NVIDIA 提供的嵌入式设备，专门用于高效 AI 计算
 ./cloneTensorFlow.sh 
 ```

-3.  接下来，使用 以下代码设置所需的环境变量：
+3.  接下来，使用以下代码设置所需的环境变量：

 ```py
 ./setTensorFlowEV.sh 
 ```

-4.  现在我们将使用 以下代码构建 TensorFlow ：
+4.  现在我们将使用以下代码构建 TensorFlow ：

 ```py
 ./buildTensorFlow.sh 
 ```

-5.  现在，我们将使用以下代码 使用 将打包文件处理为 Wheel 文件：
+5.  现在，我们将使用以下代码将打包文件处理为 Wheel 文件：

 ```py
 ./packageTensorFlow.sh