From 8cb1895c9b7eaf0ac6659c4d4442ed7ce8e3af07 Mon Sep 17 00:00:00 2001
From: wizardforcel <562826179@qq.com>
Date: Thu, 3 Sep 2020 16:09:01 +0800
Subject: [PATCH] 2020-09-03 16:09:00

---
 docs/dl-cv/09.md | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/docs/dl-cv/09.md b/docs/dl-cv/09.md
index e80fd7c1..94d9c671 100644
--- a/docs/dl-cv/09.md
+++ b/docs/dl-cv/09.md
@@ -94,7 +94,7 @@ frame_no = 0 while True:
 
 # 融合并行 CNN 进行视频分类
 
-就帧而言，由于图像的下采样，视频的预测可能不会产生良好的结果，从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此，[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流，并行运行视频分类。 进行逐帧预测有两个问题，即：
+就帧而言，由于图像的下采样，视频的预测可能不会产生良好的结果，从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此，[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流，它们并行运行视频分类。 进行逐帧预测有两个问题，即：
 
 *   由于较大的 CNN 架构，预测可能需要很长时间
 *   独立的预测会沿时间维度丢失信息
@@ -246,7 +246,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,
 
 # 多峰融合
 
-[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态视频融合分类。 这四个模型分别是 3D 卷积特征，2D 光流，3D 光流和 2D 卷积特征。
+[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态融合视频分类方法。 这四个模型分别是 3D 卷积特征，2D 光流，3D 光流和 2D 卷积特征。
 
 该方法的数据流如下所示：
 
@@ -312,7 +312,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,
 
 # 跟踪人脸标志
 
-视频中的人脸分析需要人脸检测，界标检测，姿势估计，验证等。 计算地标对于捕获人脸动画，人机交互和人类活动识别尤其重要。 除了在帧上进行计算外，还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用 RNN 的视频中的人脸标志和联合估计的检测和跟踪方法 。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算，时间方面在 RNN 中编码。 综合数据用于训练。
+视频中的人脸分析需要人脸检测，界标检测，姿势估计，验证等。 计算地标对于捕获人脸动画，人机交互和人类活动识别尤其重要。 除了在帧上进行计算外，还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用视频中的人脸标志的检测和跟踪的联合估计的 RNN 方法。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算，时间方面在 RNN 中编码。 综合数据用于训练。
 
 # 分割影片
 
-- 
GitLab