2020-09-02 18:41:58

079c776c · wizardforcel · 17ab163a · 079c776c · 079c776c
隐藏空白更改
内联并排

Showing with 20 addition and 20 deletion

docs/dl-cv/09.md docs/dl-cv/09.md +12 -12

docs/dl-cv/10.md docs/dl-cv/10.md +8 -8

未找到文件。
--- a/docs/dl-cv/09.md
+++ b/docs/dl-cv/09.md
@@ -299,10 +299,10 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,

 人体姿势估计是视频数据的重要应用，可以改善其他任务，例如动作识别。 首先，让我们看一下可用于姿势估计的数据集的描述：

-*   **摆在野生的** **数据集**中：包含 30 个带有人体姿势注释的视频。 数据集链接为： [https://lear.inrialpes.fr/research/posesinthewild/](https://lear.inrialpes.fr/research/posesinthewild/) 。 该数据集带有人类上半身关节的注释。
-*   **电影院中标记的帧**（ **FLIC** ）：从 30 部电影中获得的人体姿势数据集，可在以下位置找到： [https://bensapp.github.io/flic-dataset.html](https://bensapp.github.io/flic-dataset.html) 。
+*   **摆在野生的** **数据集**中：包含 30 个带有人体姿势注释的视频。 [数据集在这里](https://lear.inrialpes.fr/research/posesinthewild/)。 该数据集带有人类上半身关节的注释。
+*   **电影院中标记的帧**（ **FLIC** ）：从 30 部电影中获得的人体姿势数据集，[可在以下位置找到](https://bensapp.github.io/flic-dataset.html)。

-Pfister 等。 （ [https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf) ）提出了一种预测视频中人体姿势的方法。 以下是回归人体姿势的管道：
+[Pfister 等人](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf)提出了一种预测视频中人体姿势的方法。 以下是回归人体姿势的管道：

 ![](img/59d379eb-94cf-453c-aeac-28b1a04e6e44.png)

@@ -312,11 +312,11 @@ Pfister 等。 （ [https://www.cv-foundation.org/openaccess/content_iccv_2015/p

 # 跟踪面部标志

-视频中的人脸分析需要人脸检测，界标检测，姿势估计，验证等。 计算地标对于捕获面部动画，人机交互和人类活动识别尤其重要。 除了在帧上进行计算外，还可以在视频上进行计算。 Gu 等。 （ [http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf) ）提出了一种使用联合估计的检测和跟踪方法 使用 RNN 的视频中的面部地标。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算，时间方面在 RNN 中编码。 综合数据用于训练。
+视频中的人脸分析需要人脸检测，界标检测，姿势估计，验证等。 计算地标对于捕获面部动画，人机交互和人类活动识别尤其重要。 除了在帧上进行计算外，还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用联合估计的检测和跟踪方法 使用 RNN 的视频中的面部地标。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算，时间方面在 RNN 中编码。 综合数据用于训练。

 # 分割影片

-使用时间信息时，可以更好地分割视频。 加德（Gadde）等人。 （ [https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf](https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf) ）提出了一种通过扭曲来组合时间信息的方法。 下图演示了该解决方案，该方法将两个帧分段并且结合了变形：
+使用时间信息时，可以更好地分割视频。 [加德（Gadde）等人](https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf)提出了一种通过扭曲来组合时间信息的方法。 下图演示了该解决方案，该方法将两个帧分段并且结合了变形：

 ![](img/0d1ae328-95c8-4794-b8a4-196046e5f578.png)

@@ -334,18 +334,18 @@ Pfister 等。 （ [https://www.cv-foundation.org/openaccess/content_iccv_2015/p

 [第 7 章](../Text/07.html)，*图像字幕*说明了几种组合文本和图像的方法。 同样，可以为视频生成字幕，以描述上下文。 让我们看一下可用于字幕视频的数据集列表：

-*   **Microsoft Research-视频转文本**（ **MSR-VTT** ）具有 200,000 个视频剪辑和句子对。 可以从以下网站获取更多详细信息： [https://www.microsoft.com/zh-cn/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and- 语言/](https://www.microsoft.com/en-us/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and-language/) 。
-*   **MPII 电影描述语料库**（ **MPII-MD** ）可以从以下网站获取： [https://www.mpi-inf.mpg.de/departments/computer-vision-and 多模态计算/研究/视觉和语言/ mpii 电影描述数据集](https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/mpii-movie-description-dataset)。 它有 68,000 个句子和 94 部电影。
-*   **蒙特利尔视频注释数据集**（ **M-VAD** ）可从以下网站获得：  [https://mila.quebec/zh/publications/public-datasets / m-vad /](https://mila.quebec/en/publications/public-datasets/m-vad/) 和有 49,000 个剪辑。
+*   **Microsoft Research-视频转文本**（ **MSR-VTT** ）具有 200,000 个视频剪辑和句子对。 [可以从以下网站获取更多详细信息](https://www.microsoft.com/en-us/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and-language/)。
+*   **MPII 电影描述语料库**（ **MPII-MD** ）[可以从以下网站获取](https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/mpii-movie-description-dataset)。 它有 68,000 个句子和 94 部电影。
+*   **蒙特利尔视频注释数据集**（ **M-VAD** ）[可从以下网站获得](https://mila.quebec/en/publications/public-datasets/m-vad/)。它有 49,000 个剪辑。
 *   **YouTube2Text** 包含 1,970 个视频，包含 80,000 个描述。

-姚等。 （ [https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf) ）提出了一种为视频添加字幕的方法。 经过训练以进行动作识别的 3D 卷积网络用于提取局部时间特征。 然后在特征上使用注意力机制以使用 RNN 生成文本。 该过程如下所示：
+[姚等人](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf)提出了一种为视频添加字幕的方法。 经过训练以进行动作识别的 3D 卷积网络用于提取局部时间特征。 然后在特征上使用注意力机制以使用 RNN 生成文本。 该过程如下所示：

 ![](img/71cfe3d2-2787-4234-a683-8ca292510133.png)

 转载自 Yao 等。

-Donahue 等。 （ [https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf](https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf) ）提出了另一种视频字幕或描述方法，该方法将 **LSTM** 与 卷积功能。
+[Donahue 等人](https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf)提出了另一种视频字幕或描述方法，该方法将 **LSTM** 与 卷积功能。

 这类似于前面的方法，除了我们在此处使用 2D 卷积功能，如下图所示：

@@ -359,7 +359,7 @@ Donahue 等。 （ [https://www.cv-foundation.org/openaccess/content_cvpr_2015/p

 摘自 Donahue 等。

-Venugopalan 等。 （ [https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf) ）提出了一种使用编码器-解码器方法进行视频字幕的方法。 以下是他提出的技术的可视化：
+[Venugopalan 等人](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf)提出了一种使用编码器-解码器方法进行视频字幕的方法。 以下是他提出的技术的可视化：

 ![](img/6935b3c7-f3bb-4876-a3d5-f6f6559d7e05.png)

@@ -369,7 +369,7 @@ Venugopalan 等。 （ [https://www.cv-foundation.org/openaccess/content_iccv_20

 # 产生影片

-可以使用生成模型以无监督的方式生成视频。 可以使用当前帧预测未来的帧。 Ranzato 等。 （ [https://arxiv.org/pdf/1412.6604.pdf](https://arxiv.org/pdf/1412.6604.pdf) ）提出了一种受语言模型启发的视频生成方法。 RNN 模型用于拍摄图像补丁并预测下一个补丁。
+可以使用生成模型以无监督的方式生成视频。 可以使用当前帧预测未来的帧。 [Ranzato 等人](https://arxiv.org/pdf/1412.6604.pdf)提出了一种受语言模型启发的视频生成方法。 RNN 模型用于拍摄图像补丁并预测下一个补丁。

 # 摘要


--- a/docs/dl-cv/10.md
+++ b/docs/dl-cv/10.md
@@ -24,7 +24,7 @@

 # 移动网

-霍华德（Howard）和其他人（ [https://arxiv.org/pdf/1704.04861.pdf](https://arxiv.org/pdf/1704.04861.pdf) ）引入了一种称为 **MobileNets** 的新型模型，可用于移动和嵌入式应用程序。 MobileNets 可以用于不同的应用程序，例如对象检测，地标识别，人脸属性，细粒度分类，如下所示：
+[霍华德（Howard）和其他人](https://arxiv.org/pdf/1704.04861.pdf)引入了一种称为 **MobileNets** 的新型模型，可用于移动和嵌入式应用程序。 MobileNets 可以用于不同的应用程序，例如对象检测，地标识别，人脸属性，细粒度分类，如下所示：

 ![](img/f363f9cf-4786-41e0-9812-d49b4c26039a.png)

@@ -64,7 +64,7 @@ MobileNets 已显示，可以在移动和嵌入式设备上使用的精度有所

 # AWS

-Amazon Web Services（AWS）将支持扩展到基于 TensorFlow 的模型的开发和部署。 在 [https://aws.amazon.com/](https://aws.amazon.com/) 上注册 AWS，然后选择 **Amazon Machine Images** （ **AMI** ）之一。 AMI 是安装了所有必需软件的计算机的映像。 您不必担心安装软件包。 **AWS 提供了深度学习 AMI** （ **DLAMI** ），以简化培训和部署深度学习模型。 有几种选择。 在这里，我们将使用 Conda，因为它带有运行 TensorFlow 所需的几个软件包。 Python 有两个选项：版本 2 和版本 3。以下代码将在 CUDA 8 的 Python 3 上使用 Keras 2 激活 TensorFlow：
+Amazon Web Services（AWS）将支持扩展到基于 TensorFlow 的模型的开发和部署。 在 [Amazon](https://aws.amazon.com/) 上注册 AWS，然后选择 **Amazon Machine Images** （ **AMI** ）之一。 AMI 是安装了所有必需软件的计算机的映像。 您不必担心安装软件包。 **AWS 提供了深度学习 AMI** （ **DLAMI** ），以简化培训和部署深度学习模型。 有几种选择。 在这里，我们将使用 Conda，因为它带有运行 TensorFlow 所需的几个软件包。 Python 有两个选项：版本 2 和版本 3。以下代码将在 CUDA 8 的 Python 3 上使用 Keras 2 激活 TensorFlow：

 ```py
 source activate tensorflow_p36
@@ -76,11 +76,11 @@ source activate tensorflow_p36
 source activate tensorflow_p27
 ```

-您可以访问 [https://aws.amazon.com/tensorflow/](https://aws.amazon.com/tensorflow/) 了解更多详细信息和教程。
+您可以访问[这里](https://aws.amazon.com/tensorflow/)了解更多详细信息和教程。

 还可以通过执行以下给定的步骤来启动**虚拟机**（ **VM** ）：

-1.  转到 [aws.amazon.com](https://aws.amazon.com/) ，然后使用您的 Amazon 帐户登录。
+1.  转到 [Amazon AWS](https://aws.amazon.com/)，然后使用您的 Amazon 帐户登录。
 2.  从登录页面选择启动虚拟机：

 ![](img/d8d35771-0127-4f5f-9f7a-37edc6eb0c1c.png)
@@ -160,7 +160,7 @@ GCP 具有**云机器学习引擎**，可在使用 TensorFlow 时为我们提供
 2.  用于  和  培训和部署模型的云机器学习引擎
 3.  Google Cloud Storage 用于存储培训数据，代码和结果

-可以在 [https://cloud.google.com/ml-engine/docs 上找到  使用云机器学习引擎建立自定义图像分类模型的出色教程。 / flowers-tutorial](https://cloud.google.com/ml-engine/docs/flowers-tutorial) 。
+可以在[这个页面](https://cloud.google.com/ml-engine/docs/flowers-tutorial)上找到使用云机器学习引擎建立自定义图像分类模型的出色教程。

 # 在设备中部署模型

@@ -168,7 +168,7 @@ TensorFlow 模型也可以部署在移动设备中。 移动设备包括智能

 # 杰特逊 TX2

-Jetson TX2 是由 NVIDIA 提供的嵌入式设备，专门用于高效 AI 计算。 Jetson TX2 轻巧，紧凑，因此适合在无人机，公共场所等中部署。 它还附带预装的 TensorRT，这是 TensorFlow 的运行时。 您可以购买 Jetson 并在安装 TensorFlow 之前快速安装 Ubuntu，CUDA，CUDNN。 克隆 [https://github.com/jetsonhacks/installTensorFlowTX2](https://github.com/jetsonhacks/installTensorFlowTX2) ，然后在命令提示符下输入以下命令。
+Jetson TX2 是由 NVIDIA 提供的嵌入式设备，专门用于高效 AI 计算。 Jetson TX2 轻巧，紧凑，因此适合在无人机，公共场所等中部署。 它还附带预装的 TensorRT，这是 TensorFlow 的运行时。 您可以购买 Jetson 并在安装 TensorFlow 之前快速安装 Ubuntu，CUDA，CUDNN。 克隆[这个页面](https://github.com/jetsonhacks/installTensorFlowTX2)，然后在命令提示符下输入以下命令。

 1.  首先，在以下代码的帮助下安装必备组件：

@@ -210,7 +210,7 @@ Jetson TX2 是由 NVIDIA 提供的嵌入式设备，专门用于高效 AI 计算

 # 安卓系统

-任何 Android 应用程序都可以使用 TensorFlow，其构建细节可以在 [https://www.tensorflow.org/mobile/android_build](https://www.tensorflow.org/mobile/android_build) 中找到。 关于此的官方示例可以在 [https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android) 中找到。 假设读者具有 Android 编程经验，则在 Android 设备中实现 Tensorflow 的步骤如下：
+任何 Android 应用程序都可以使用 TensorFlow，其构建细节可以在[这个页面](https://www.tensorflow.org/mobile/android_build)中找到。 关于此的官方示例可以在[这个页面](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android)中找到。 假设读者具有 Android 编程经验，则在 Android 设备中实现 Tensorflow 的步骤如下：

 1.  使用[第 3 章](../Text/03.html)和*图像检索*中介绍的步骤，将 TensorFlow 模型导出到`.pb`文件。
 2.  生成二进制文件`.so`和`.jar`。
@@ -219,7 +219,7 @@ Jetson TX2 是由 NVIDIA 提供的嵌入式设备，专门用于高效 AI 计算

 # 苹果手机

-苹果使用 CoreML 框架将机器学习集成到 iPhone 应用程序中。 Apple 提供了可以直接集成到应用程序中的标准模型列表。 您可以使用 TensorFlow 训练自定义深度学习模型并将其在 iPhone 中使用。 为了部署自定义模型，您必须在 CoreML 框架模型中隐藏 TensorFlow。 谷歌发布了 [https://github.com/tf-coreml/tf-coreml](https://github.com/tf-coreml/tf-coreml) ，用于将 TensorFlow 模型转换为 CoreML 模型。 可以使用以下代码安装 TFcoreML：
+苹果使用 CoreML 框架将机器学习集成到 iPhone 应用程序中。 Apple 提供了可以直接集成到应用程序中的标准模型列表。 您可以使用 TensorFlow 训练自定义深度学习模型并将其在 iPhone 中使用。 为了部署自定义模型，您必须在 CoreML 框架模型中隐藏 TensorFlow。 谷歌发布了 [tf-coreml](https://github.com/tf-coreml/tf-coreml)，用于将 TensorFlow 模型转换为 CoreML 模型。 可以使用以下代码安装 TFcoreML：

 ```py
 pip install -U tfcoreml