提交 079c776c 编写于 作者: W wizardforcel

2020-09-02 18:41:58

上级 17ab163a
......@@ -299,10 +299,10 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,
人体姿势估计是视频数据的重要应用,可以改善其他任务,例如动作识别。 首先,让我们看一下可用于姿势估计的数据集的描述:
* **摆在野生的** **数据集**中:包含 30 个带有人体姿势注释的视频。 数据集链接为: [https://lear.inrialpes.fr/research/posesinthewild/](https://lear.inrialpes.fr/research/posesinthewild/) 。 该数据集带有人类上半身关节的注释。
* **电影院中标记的帧****FLIC** ):从 30 部电影中获得的人体姿势数据集,可在以下位置找到: [https://bensapp.github.io/flic-dataset.html](https://bensapp.github.io/flic-dataset.html)
* **摆在野生的** **数据集**中:包含 30 个带有人体姿势注释的视频。 [数据集在这里](https://lear.inrialpes.fr/research/posesinthewild/)。 该数据集带有人类上半身关节的注释。
* **电影院中标记的帧****FLIC** ):从 30 部电影中获得的人体姿势数据集,[可在以下位置找到](https://bensapp.github.io/flic-dataset.html)
Pfister 等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf)提出了一种预测视频中人体姿势的方法。 以下是回归人体姿势的管道:
[Pfister 等人](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf)提出了一种预测视频中人体姿势的方法。 以下是回归人体姿势的管道:
![](img/59d379eb-94cf-453c-aeac-28b1a04e6e44.png)
......@@ -312,11 +312,11 @@ Pfister 等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_2015/p
# 跟踪面部标志
视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获面部动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。 Gu 等。 ( [http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用联合估计的检测和跟踪方法 使用 RNN 的视频中的面部地标。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。
视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获面部动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用联合估计的检测和跟踪方法 使用 RNN 的视频中的面部地标。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。
# 分割影片
使用时间信息时,可以更好地分割视频。 加德(Gadde)等人。 ( [https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf](https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf)提出了一种通过扭曲来组合时间信息的方法。 下图演示了该解决方案,该方法将两个帧分段并且结合了变形:
使用时间信息时,可以更好地分割视频。 [加德(Gadde)等人](https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf)提出了一种通过扭曲来组合时间信息的方法。 下图演示了该解决方案,该方法将两个帧分段并且结合了变形:
![](img/0d1ae328-95c8-4794-b8a4-196046e5f578.png)
......@@ -334,18 +334,18 @@ Pfister 等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_2015/p
[第 7 章](../Text/07.html)*图像字幕*说明了几种组合文本和图像的方法。 同样,可以为视频生成字幕,以描述上下文。 让我们看一下可用于字幕视频的数据集列表:
* **Microsoft Research-视频转文本****MSR-VTT** )具有 200,000 个视频剪辑和句子对。 可以从以下网站获取更多详细信息: [https://www.microsoft.com/zh-cn/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and- 语言/](https://www.microsoft.com/en-us/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and-language/)
* **MPII 电影描述语料库****MPII-MD**可以从以下网站获取: [https://www.mpi-inf.mpg.de/departments/computer-vision-and 多模态计算/研究/视觉和语言/ mpii 电影描述数据集](https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/mpii-movie-description-dataset)。 它有 68,000 个句子和 94 部电影。
* **蒙特利尔视频注释数据集****M-VAD**可从以下网站获得: [https://mila.quebec/zh/publications/public-datasets / m-vad /](https://mila.quebec/en/publications/public-datasets/m-vad/)有 49,000 个剪辑。
* **Microsoft Research-视频转文本****MSR-VTT** )具有 200,000 个视频剪辑和句子对。 [可以从以下网站获取更多详细信息](https://www.microsoft.com/en-us/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and-language/)
* **MPII 电影描述语料库****MPII-MD**[可以从以下网站获取](https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/mpii-movie-description-dataset)。 它有 68,000 个句子和 94 部电影。
* **蒙特利尔视频注释数据集****M-VAD**[可从以下网站获得](https://mila.quebec/en/publications/public-datasets/m-vad/)。它有 49,000 个剪辑。
* **YouTube2Text** 包含 1,970 个视频,包含 80,000 个描述。
姚等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf)提出了一种为视频添加字幕的方法。 经过训练以进行动作识别的 3D 卷积网络用于提取局部时间特征。 然后在特征上使用注意力机制以使用 RNN 生成文本。 该过程如下所示:
[姚等人](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf)提出了一种为视频添加字幕的方法。 经过训练以进行动作识别的 3D 卷积网络用于提取局部时间特征。 然后在特征上使用注意力机制以使用 RNN 生成文本。 该过程如下所示:
![](img/71cfe3d2-2787-4234-a683-8ca292510133.png)
转载自 Yao 等。
Donahue 等。 ( [https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf](https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf)提出了另一种视频字幕或描述方法,该方法将 **LSTM** 与 卷积功能。
[Donahue 等人](https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf)提出了另一种视频字幕或描述方法,该方法将 **LSTM** 与 卷积功能。
这类似于前面的方法,除了我们在此处使用 2D 卷积功能,如下图所示:
......@@ -359,7 +359,7 @@ Donahue 等。 ( [https://www.cv-foundation.org/openaccess/content_cvpr_2015/p
摘自 Donahue 等。
Venugopalan 等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf)提出了一种使用编码器-解码器方法进行视频字幕的方法。 以下是他提出的技术的可视化:
[Venugopalan 等人](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf)提出了一种使用编码器-解码器方法进行视频字幕的方法。 以下是他提出的技术的可视化:
![](img/6935b3c7-f3bb-4876-a3d5-f6f6559d7e05.png)
......@@ -369,7 +369,7 @@ Venugopalan 等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_20
# 产生影片
可以使用生成模型以无监督的方式生成视频。 可以使用当前帧预测未来的帧。 Ranzato 等。 ( [https://arxiv.org/pdf/1412.6604.pdf](https://arxiv.org/pdf/1412.6604.pdf)提出了一种受语言模型启发的视频生成方法。 RNN 模型用于拍摄图像补丁并预测下一个补丁。
可以使用生成模型以无监督的方式生成视频。 可以使用当前帧预测未来的帧。 [Ranzato 等人](https://arxiv.org/pdf/1412.6604.pdf)提出了一种受语言模型启发的视频生成方法。 RNN 模型用于拍摄图像补丁并预测下一个补丁。
# 摘要
......
......@@ -24,7 +24,7 @@
# 移动网
霍华德(Howard)和其他人( [https://arxiv.org/pdf/1704.04861.pdf](https://arxiv.org/pdf/1704.04861.pdf)引入了一种称为 **MobileNets** 的新型模型,可用于移动和嵌入式应用程序。 MobileNets 可以用于不同的应用程序,例如对象检测,地标识别,人脸属性,细粒度分类,如下所示:
[霍华德(Howard)和其他人](https://arxiv.org/pdf/1704.04861.pdf)引入了一种称为 **MobileNets** 的新型模型,可用于移动和嵌入式应用程序。 MobileNets 可以用于不同的应用程序,例如对象检测,地标识别,人脸属性,细粒度分类,如下所示:
![](img/f363f9cf-4786-41e0-9812-d49b4c26039a.png)
......@@ -64,7 +64,7 @@ MobileNets 已显示,可以在移动和嵌入式设备上使用的精度有所
# AWS
Amazon Web Services(AWS)将支持扩展到基于 TensorFlow 的模型的开发和部署。 在 [https://aws.amazon.com/](https://aws.amazon.com/) 上注册 AWS,然后选择 **Amazon Machine Images****AMI** )之一。 AMI 是安装了所有必需软件的计算机的映像。 您不必担心安装软件包。 **AWS 提供了深度学习 AMI****DLAMI** ),以简化培训和部署深度学习模型。 有几种选择。 在这里,我们将使用 Conda,因为它带有运行 TensorFlow 所需的几个软件包。 Python 有两个选项:版本 2 和版本 3。以下代码将在 CUDA 8 的 Python 3 上使用 Keras 2 激活 TensorFlow:
Amazon Web Services(AWS)将支持扩展到基于 TensorFlow 的模型的开发和部署。 在 [Amazon](https://aws.amazon.com/) 上注册 AWS,然后选择 **Amazon Machine Images****AMI** )之一。 AMI 是安装了所有必需软件的计算机的映像。 您不必担心安装软件包。 **AWS 提供了深度学习 AMI****DLAMI** ),以简化培训和部署深度学习模型。 有几种选择。 在这里,我们将使用 Conda,因为它带有运行 TensorFlow 所需的几个软件包。 Python 有两个选项:版本 2 和版本 3。以下代码将在 CUDA 8 的 Python 3 上使用 Keras 2 激活 TensorFlow:
```py
source activate tensorflow_p36
......@@ -76,11 +76,11 @@ source activate tensorflow_p36
source activate tensorflow_p27
```
您可以访问 [https://aws.amazon.com/tensorflow/](https://aws.amazon.com/tensorflow/) 了解更多详细信息和教程。
您可以访问[这里](https://aws.amazon.com/tensorflow/)了解更多详细信息和教程。
还可以通过执行以下给定的步骤来启动**虚拟机****VM** ):
1. 转到 [aws.amazon.com](https://aws.amazon.com/) ,然后使用您的 Amazon 帐户登录。
1. 转到 [Amazon AWS](https://aws.amazon.com/),然后使用您的 Amazon 帐户登录。
2. 从登录页面选择启动虚拟机:
![](img/d8d35771-0127-4f5f-9f7a-37edc6eb0c1c.png)
......@@ -160,7 +160,7 @@ GCP 具有**云机器学习引擎**,可在使用 TensorFlow 时为我们提供
2. 用于 和 培训和部署模型的云机器学习引擎
3. Google Cloud Storage 用于存储培训数据,代码和结果
可以在 [https://cloud.google.com/ml-engine/docs 上找到 使用云机器学习引擎建立自定义图像分类模型的出色教程。 / flowers-tutorial](https://cloud.google.com/ml-engine/docs/flowers-tutorial)
可以在[这个页面](https://cloud.google.com/ml-engine/docs/flowers-tutorial)上找到使用云机器学习引擎建立自定义图像分类模型的出色教程
# 在设备中部署模型
......@@ -168,7 +168,7 @@ TensorFlow 模型也可以部署在移动设备中。 移动设备包括智能
# 杰特逊 TX2
Jetson TX2 是由 NVIDIA 提供的嵌入式设备,专门用于高效 AI 计算。 Jetson TX2 轻巧,紧凑,因此适合在无人机,公共场所等中部署。 它还附带预装的 TensorRT,这是 TensorFlow 的运行时。 您可以购买 Jetson 并在安装 TensorFlow 之前快速安装 Ubuntu,CUDA,CUDNN。 克隆 [https://github.com/jetsonhacks/installTensorFlowTX2](https://github.com/jetsonhacks/installTensorFlowTX2) ,然后在命令提示符下输入以下命令。
Jetson TX2 是由 NVIDIA 提供的嵌入式设备,专门用于高效 AI 计算。 Jetson TX2 轻巧,紧凑,因此适合在无人机,公共场所等中部署。 它还附带预装的 TensorRT,这是 TensorFlow 的运行时。 您可以购买 Jetson 并在安装 TensorFlow 之前快速安装 Ubuntu,CUDA,CUDNN。 克隆[这个页面](https://github.com/jetsonhacks/installTensorFlowTX2),然后在命令提示符下输入以下命令。
1. 首先,在以下代码的帮助下安装必备组件:
......@@ -210,7 +210,7 @@ Jetson TX2 是由 NVIDIA 提供的嵌入式设备,专门用于高效 AI 计算
# 安卓系统
任何 Android 应用程序都可以使用 TensorFlow,其构建细节可以在 [https://www.tensorflow.org/mobile/android_build](https://www.tensorflow.org/mobile/android_build) 中找到。 关于此的官方示例可以在 [https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android) 中找到。 假设读者具有 Android 编程经验,则在 Android 设备中实现 Tensorflow 的步骤如下:
任何 Android 应用程序都可以使用 TensorFlow,其构建细节可以在[这个页面](https://www.tensorflow.org/mobile/android_build)中找到。 关于此的官方示例可以在[这个页面](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android)中找到。 假设读者具有 Android 编程经验,则在 Android 设备中实现 Tensorflow 的步骤如下:
1. 使用[第 3 章](../Text/03.html)*图像检索*中介绍的步骤,将 TensorFlow 模型导出到`.pb`文件。
2. 生成二进制文件`.so``.jar`
......@@ -219,7 +219,7 @@ Jetson TX2 是由 NVIDIA 提供的嵌入式设备,专门用于高效 AI 计算
# 苹果手机
苹果使用 CoreML 框架将机器学习集成到 iPhone 应用程序中。 Apple 提供了可以直接集成到应用程序中的标准模型列表。 您可以使用 TensorFlow 训练自定义深度学习模型并将其在 iPhone 中使用。 为了部署自定义模型,您必须在 CoreML 框架模型中隐藏 TensorFlow。 谷歌发布了 [https://github.com/tf-coreml/tf-coreml](https://github.com/tf-coreml/tf-coreml) ,用于将 TensorFlow 模型转换为 CoreML 模型。 可以使用以下代码安装 TFcoreML:
苹果使用 CoreML 框架将机器学习集成到 iPhone 应用程序中。 Apple 提供了可以直接集成到应用程序中的标准模型列表。 您可以使用 TensorFlow 训练自定义深度学习模型并将其在 iPhone 中使用。 为了部署自定义模型,您必须在 CoreML 框架模型中隐藏 TensorFlow。 谷歌发布了 [tf-coreml](https://github.com/tf-coreml/tf-coreml),用于将 TensorFlow 模型转换为 CoreML 模型。 可以使用以下代码安装 TFcoreML:
```py
pip install -U tfcoreml
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册