From 8cb1895c9b7eaf0ac6659c4d4442ed7ce8e3af07 Mon Sep 17 00:00:00 2001 From: wizardforcel <562826179@qq.com> Date: Thu, 3 Sep 2020 16:09:01 +0800 Subject: [PATCH] 2020-09-03 16:09:00 --- docs/dl-cv/09.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/dl-cv/09.md b/docs/dl-cv/09.md index e80fd7c1..94d9c671 100644 --- a/docs/dl-cv/09.md +++ b/docs/dl-cv/09.md @@ -94,7 +94,7 @@ frame_no = 0 while True: # 融合并行 CNN 进行视频分类 -就帧而言,由于图像的下采样,视频的预测可能不会产生良好的结果,从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此,[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流,并行运行视频分类。 进行逐帧预测有两个问题,即: +就帧而言,由于图像的下采样,视频的预测可能不会产生良好的结果,从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此,[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流,它们并行运行视频分类。 进行逐帧预测有两个问题,即: * 由于较大的 CNN 架构,预测可能需要很长时间 * 独立的预测会沿时间维度丢失信息 @@ -246,7 +246,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy, # 多峰融合 -[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态视频融合分类。 这四个模型分别是 3D 卷积特征,2D 光流,3D 光流和 2D 卷积特征。 +[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态融合视频分类方法。 这四个模型分别是 3D 卷积特征,2D 光流,3D 光流和 2D 卷积特征。 该方法的数据流如下所示: @@ -312,7 +312,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy, # 跟踪人脸标志 -视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获人脸动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用 RNN 的视频中的人脸标志和联合估计的检测和跟踪方法 。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。 +视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获人脸动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用视频中的人脸标志的检测和跟踪的联合估计的 RNN 方法。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。 # 分割影片 -- GitLab