Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
安浅Y
apachecn-dl-zh
提交
079c776c
A
apachecn-dl-zh
项目概览
安浅Y
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
079c776c
编写于
9月 02, 2020
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2020-09-02 18:41:58
上级
17ab163a
变更
2
显示空白变更内容
内联
并排
Showing
2 changed file
with
20 addition
and
20 deletion
+20
-20
docs/dl-cv/09.md
docs/dl-cv/09.md
+12
-12
docs/dl-cv/10.md
docs/dl-cv/10.md
+8
-8
未找到文件。
docs/dl-cv/09.md
浏览文件 @
079c776c
...
...
@@ -299,10 +299,10 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,
人体姿势估计是视频数据的重要应用,可以改善其他任务,例如动作识别。 首先,让我们看一下可用于姿势估计的数据集的描述:
*
**摆在野生的**
**数据集**
中:包含 30 个带有人体姿势注释的视频。
数据集链接为:
[
https://lear.inrialpes.fr/research/posesinthewild/
](
https://lear.inrialpes.fr/research/posesinthewild/
)
。 该数据集带有人类上半身关节的注释。
*
**电影院中标记的帧**
(
**FLIC**
):从 30 部电影中获得的人体姿势数据集,
可在以下位置找到:
[
https://bensapp.github.io/flic-dataset.html
](
https://bensapp.github.io/flic-dataset.html
)
。
*
**摆在野生的**
**数据集**
中:包含 30 个带有人体姿势注释的视频。
[
数据集在这里
](
https://lear.inrialpes.fr/research/posesinthewild/
)
。 该数据集带有人类上半身关节的注释。
*
**电影院中标记的帧**
(
**FLIC**
):从 30 部电影中获得的人体姿势数据集,
[
可在以下位置找到
](
https://bensapp.github.io/flic-dataset.html
)
。
Pfister 等。 (
[
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf
](
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf
)
)
提出了一种预测视频中人体姿势的方法。 以下是回归人体姿势的管道:
[
Pfister 等人
](
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Pfister_Flowing_ConvNets_for_ICCV_2015_paper.pdf
)
提出了一种预测视频中人体姿势的方法。 以下是回归人体姿势的管道:
![](
img/59d379eb-94cf-453c-aeac-28b1a04e6e44.png
)
...
...
@@ -312,11 +312,11 @@ Pfister 等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_2015/p
# 跟踪面部标志
视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获面部动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。
Gu 等。 (
[
http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf
](
http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf
)
)
提出了一种使用联合估计的检测和跟踪方法 使用 RNN 的视频中的面部地标。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。
视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获面部动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。
[
Gu 等人
](
http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf
)
提出了一种使用联合估计的检测和跟踪方法 使用 RNN 的视频中的面部地标。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。
# 分割影片
使用时间信息时,可以更好地分割视频。
加德(Gadde)等人。 (
[
https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf
](
https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf
)
)
提出了一种通过扭曲来组合时间信息的方法。 下图演示了该解决方案,该方法将两个帧分段并且结合了变形:
使用时间信息时,可以更好地分割视频。
[
加德(Gadde)等人
](
https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/386/gadde2017videocnns.pdf
)
提出了一种通过扭曲来组合时间信息的方法。 下图演示了该解决方案,该方法将两个帧分段并且结合了变形:
![](
img/0d1ae328-95c8-4794-b8a4-196046e5f578.png
)
...
...
@@ -334,18 +334,18 @@ Pfister 等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_2015/p
[
第 7 章
](
../Text/07.html
)
,
*图像字幕*
说明了几种组合文本和图像的方法。 同样,可以为视频生成字幕,以描述上下文。 让我们看一下可用于字幕视频的数据集列表:
*
**Microsoft Research-视频转文本**
(
**MSR-VTT**
)具有 200,000 个视频剪辑和句子对。
可以从以下网站获取更多详细信息:
[
https://www.microsoft.com/zh-cn/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and- 语言/
](
https://www.microsoft.com/en-us/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and-language/
)
。
*
**MPII 电影描述语料库**
(
**MPII-MD**
)
可以从以下网站获取:
[
https://www.mpi-inf.mpg.de/departments/computer-vision-and 多模态计算/研究/视觉和语言/ mpii 电影描述数据集
](
https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/mpii-movie-description-dataset
)
。 它有 68,000 个句子和 94 部电影。
*
**蒙特利尔视频注释数据集**
(
**M-VAD**
)
可从以下网站获得:
[
https://mila.quebec/zh/publications/public-datasets / m-vad /
](
https://mila.quebec/en/publications/public-datasets/m-vad/
)
和
有 49,000 个剪辑。
*
**Microsoft Research-视频转文本**
(
**MSR-VTT**
)具有 200,000 个视频剪辑和句子对。
[
可以从以下网站获取更多详细信息
](
https://www.microsoft.com/en-us/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and-language/
)
。
*
**MPII 电影描述语料库**
(
**MPII-MD**
)
[
可以从以下网站获取
](
https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/mpii-movie-description-dataset
)
。 它有 68,000 个句子和 94 部电影。
*
**蒙特利尔视频注释数据集**
(
**M-VAD**
)
[
可从以下网站获得
](
https://mila.quebec/en/publications/public-datasets/m-vad/
)
。它
有 49,000 个剪辑。
*
**YouTube2Text**
包含 1,970 个视频,包含 80,000 个描述。
姚等。 (
[
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf
](
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf
)
)
提出了一种为视频添加字幕的方法。 经过训练以进行动作识别的 3D 卷积网络用于提取局部时间特征。 然后在特征上使用注意力机制以使用 RNN 生成文本。 该过程如下所示:
[
姚等人
](
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yao_Describing_Videos_by_ICCV_2015_paper.pdf
)
提出了一种为视频添加字幕的方法。 经过训练以进行动作识别的 3D 卷积网络用于提取局部时间特征。 然后在特征上使用注意力机制以使用 RNN 生成文本。 该过程如下所示:
![](
img/71cfe3d2-2787-4234-a683-8ca292510133.png
)
转载自 Yao 等。
Donahue 等。 (
[
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf
](
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf
)
)
提出了另一种视频字幕或描述方法,该方法将
**LSTM**
与 卷积功能。
[
Donahue 等人
](
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf
)
提出了另一种视频字幕或描述方法,该方法将
**LSTM**
与 卷积功能。
这类似于前面的方法,除了我们在此处使用 2D 卷积功能,如下图所示:
...
...
@@ -359,7 +359,7 @@ Donahue 等。 ( [https://www.cv-foundation.org/openaccess/content_cvpr_2015/p
摘自 Donahue 等。
Venugopalan 等。 (
[
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf
](
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf
)
)
提出了一种使用编码器-解码器方法进行视频字幕的方法。 以下是他提出的技术的可视化:
[
Venugopalan 等人
](
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf
)
提出了一种使用编码器-解码器方法进行视频字幕的方法。 以下是他提出的技术的可视化:
![](
img/6935b3c7-f3bb-4876-a3d5-f6f6559d7e05.png
)
...
...
@@ -369,7 +369,7 @@ Venugopalan 等。 ( [https://www.cv-foundation.org/openaccess/content_iccv_20
# 产生影片
可以使用生成模型以无监督的方式生成视频。 可以使用当前帧预测未来的帧。
Ranzato 等。 (
[
https://arxiv.org/pdf/1412.6604.pdf
](
https://arxiv.org/pdf/1412.6604.pdf
)
)
提出了一种受语言模型启发的视频生成方法。 RNN 模型用于拍摄图像补丁并预测下一个补丁。
可以使用生成模型以无监督的方式生成视频。 可以使用当前帧预测未来的帧。
[
Ranzato 等人
](
https://arxiv.org/pdf/1412.6604.pdf
)
提出了一种受语言模型启发的视频生成方法。 RNN 模型用于拍摄图像补丁并预测下一个补丁。
# 摘要
...
...
docs/dl-cv/10.md
浏览文件 @
079c776c
...
...
@@ -24,7 +24,7 @@
# 移动网
霍华德(Howard)和其他人(
[
https://arxiv.org/pdf/1704.04861.pdf
](
https://arxiv.org/pdf/1704.04861.pdf
)
)
引入了一种称为
**MobileNets**
的新型模型,可用于移动和嵌入式应用程序。 MobileNets 可以用于不同的应用程序,例如对象检测,地标识别,人脸属性,细粒度分类,如下所示:
[
霍华德(Howard)和其他人
](
https://arxiv.org/pdf/1704.04861.pdf
)
引入了一种称为
**MobileNets**
的新型模型,可用于移动和嵌入式应用程序。 MobileNets 可以用于不同的应用程序,例如对象检测,地标识别,人脸属性,细粒度分类,如下所示:
![](
img/f363f9cf-4786-41e0-9812-d49b4c26039a.png
)
...
...
@@ -64,7 +64,7 @@ MobileNets 已显示,可以在移动和嵌入式设备上使用的精度有所
# AWS
Amazon Web Services(AWS)将支持扩展到基于 TensorFlow 的模型的开发和部署。 在
[
https://aws.amazon.com/
](
https://aws.amazon.com/
)
上注册 AWS,然后选择
**Amazon Machine Images**
(
**AMI**
)之一。 AMI 是安装了所有必需软件的计算机的映像。 您不必担心安装软件包。
**AWS 提供了深度学习 AMI**
(
**DLAMI**
),以简化培训和部署深度学习模型。 有几种选择。 在这里,我们将使用 Conda,因为它带有运行 TensorFlow 所需的几个软件包。 Python 有两个选项:版本 2 和版本 3。以下代码将在 CUDA 8 的 Python 3 上使用 Keras 2 激活 TensorFlow:
Amazon Web Services(AWS)将支持扩展到基于 TensorFlow 的模型的开发和部署。 在
[
Amazon
](
https://aws.amazon.com/
)
上注册 AWS,然后选择
**Amazon Machine Images**
(
**AMI**
)之一。 AMI 是安装了所有必需软件的计算机的映像。 您不必担心安装软件包。
**AWS 提供了深度学习 AMI**
(
**DLAMI**
),以简化培训和部署深度学习模型。 有几种选择。 在这里,我们将使用 Conda,因为它带有运行 TensorFlow 所需的几个软件包。 Python 有两个选项:版本 2 和版本 3。以下代码将在 CUDA 8 的 Python 3 上使用 Keras 2 激活 TensorFlow:
```
py
source
activate
tensorflow_p36
...
...
@@ -76,11 +76,11 @@ source activate tensorflow_p36
source
activate
tensorflow_p27
```
您可以访问
[
https://aws.amazon.com/tensorflow/
](
https://aws.amazon.com/tensorflow/
)
了解更多详细信息和教程。
您可以访问
[
这里
](
https://aws.amazon.com/tensorflow/
)
了解更多详细信息和教程。
还可以通过执行以下给定的步骤来启动
**虚拟机**
(
**VM**
):
1.
转到
[
aws.amazon.com
](
https://aws.amazon.com/
)
,然后使用您的 Amazon 帐户登录。
1.
转到
[
Amazon AWS
](
https://aws.amazon.com/
)
,然后使用您的 Amazon 帐户登录。
2.
从登录页面选择启动虚拟机:
![](
img/d8d35771-0127-4f5f-9f7a-37edc6eb0c1c.png
)
...
...
@@ -160,7 +160,7 @@ GCP 具有**云机器学习引擎**,可在使用 TensorFlow 时为我们提供
2.
用于 和 培训和部署模型的云机器学习引擎
3.
Google Cloud Storage 用于存储培训数据,代码和结果
可以在
[
https://cloud.google.com/ml-engine/docs 上找到 使用云机器学习引擎建立自定义图像分类模型的出色教程。 / flowers-tutorial
](
https://cloud.google.com/ml-engine/docs/flowers-tutorial
)
。
可以在
[
这个页面
](
https://cloud.google.com/ml-engine/docs/flowers-tutorial
)
上找到使用云机器学习引擎建立自定义图像分类模型的出色教程
。
# 在设备中部署模型
...
...
@@ -168,7 +168,7 @@ TensorFlow 模型也可以部署在移动设备中。 移动设备包括智能
# 杰特逊 TX2
Jetson TX2 是由 NVIDIA 提供的嵌入式设备,专门用于高效 AI 计算。 Jetson TX2 轻巧,紧凑,因此适合在无人机,公共场所等中部署。 它还附带预装的 TensorRT,这是 TensorFlow 的运行时。 您可以购买 Jetson 并在安装 TensorFlow 之前快速安装 Ubuntu,CUDA,CUDNN。 克隆
[
https://github.com/jetsonhacks/installTensorFlowTX2
](
https://github.com/jetsonhacks/installTensorFlowTX2
)
,然后在命令提示符下输入以下命令。
Jetson TX2 是由 NVIDIA 提供的嵌入式设备,专门用于高效 AI 计算。 Jetson TX2 轻巧,紧凑,因此适合在无人机,公共场所等中部署。 它还附带预装的 TensorRT,这是 TensorFlow 的运行时。 您可以购买 Jetson 并在安装 TensorFlow 之前快速安装 Ubuntu,CUDA,CUDNN。 克隆
[
这个页面
](
https://github.com/jetsonhacks/installTensorFlowTX2
)
,然后在命令提示符下输入以下命令。
1.
首先,在以下代码的帮助下安装必备组件:
...
...
@@ -210,7 +210,7 @@ Jetson TX2 是由 NVIDIA 提供的嵌入式设备,专门用于高效 AI 计算
# 安卓系统
任何 Android 应用程序都可以使用 TensorFlow,其构建细节可以在
[
https://www.tensorflow.org/mobile/android_build
](
https://www.tensorflow.org/mobile/android_build
)
中找到。 关于此的官方示例可以在
[
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android
](
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android
)
中找到。 假设读者具有 Android 编程经验,则在 Android 设备中实现 Tensorflow 的步骤如下:
任何 Android 应用程序都可以使用 TensorFlow,其构建细节可以在
[
这个页面
](
https://www.tensorflow.org/mobile/android_build
)
中找到。 关于此的官方示例可以在
[
这个页面
](
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android
)
中找到。 假设读者具有 Android 编程经验,则在 Android 设备中实现 Tensorflow 的步骤如下:
1.
使用
[
第 3 章
](
../Text/03.html
)
和
*图像检索*
中介绍的步骤,将 TensorFlow 模型导出到
`.pb`
文件。
2.
生成二进制文件
`.so`
和
`.jar`
。
...
...
@@ -219,7 +219,7 @@ Jetson TX2 是由 NVIDIA 提供的嵌入式设备,专门用于高效 AI 计算
# 苹果手机
苹果使用 CoreML 框架将机器学习集成到 iPhone 应用程序中。 Apple 提供了可以直接集成到应用程序中的标准模型列表。 您可以使用 TensorFlow 训练自定义深度学习模型并将其在 iPhone 中使用。 为了部署自定义模型,您必须在 CoreML 框架模型中隐藏 TensorFlow。 谷歌发布了
[
https://github.com/tf-coreml/tf-coreml
](
https://github.com/tf-coreml/tf-coreml
)
,用于将 TensorFlow 模型转换为 CoreML 模型。 可以使用以下代码安装 TFcoreML:
苹果使用 CoreML 框架将机器学习集成到 iPhone 应用程序中。 Apple 提供了可以直接集成到应用程序中的标准模型列表。 您可以使用 TensorFlow 训练自定义深度学习模型并将其在 iPhone 中使用。 为了部署自定义模型,您必须在 CoreML 框架模型中隐藏 TensorFlow。 谷歌发布了
[
tf-coreml
](
https://github.com/tf-coreml/tf-coreml
)
,用于将 TensorFlow 模型转换为 CoreML 模型。 可以使用以下代码安装 TFcoreML:
```
py
pip
install
-
U
tfcoreml
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录