2020-09-03 16:09:00

8cb1895c · wizardforcel · e47bb02c · 8cb1895c
隐藏空白更改
内联并排

Showing with 3 addition and 3 deletion

docs/dl-cv/09.md docs/dl-cv/09.md +3 -3

未找到文件。
--- a/docs/dl-cv/09.md
+++ b/docs/dl-cv/09.md
@@ -94,7 +94,7 @@ frame_no = 0 while True:

 # 融合并行 CNN 进行视频分类

-就帧而言，由于图像的下采样，视频的预测可能不会产生良好的结果，从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此，[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流，并行运行视频分类。 进行逐帧预测有两个问题，即：
+就帧而言，由于图像的下采样，视频的预测可能不会产生良好的结果，从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此，[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流，它们并行运行视频分类。 进行逐帧预测有两个问题，即：

 *   由于较大的 CNN 架构，预测可能需要很长时间
 *   独立的预测会沿时间维度丢失信息
@@ -246,7 +246,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,

 # 多峰融合

-[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态视频融合分类。 这四个模型分别是 3D 卷积特征，2D 光流，3D 光流和 2D 卷积特征。
+[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态融合视频分类方法。 这四个模型分别是 3D 卷积特征，2D 光流，3D 光流和 2D 卷积特征。

 该方法的数据流如下所示：

@@ -312,7 +312,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,

 # 跟踪人脸标志

-视频中的人脸分析需要人脸检测，界标检测，姿势估计，验证等。 计算地标对于捕获人脸动画，人机交互和人类活动识别尤其重要。 除了在帧上进行计算外，还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用 RNN 的视频中的人脸标志和联合估计的检测和跟踪方法 。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算，时间方面在 RNN 中编码。 综合数据用于训练。
+视频中的人脸分析需要人脸检测，界标检测，姿势估计，验证等。 计算地标对于捕获人脸动画，人机交互和人类活动识别尤其重要。 除了在帧上进行计算外，还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用视频中的人脸标志的检测和跟踪的联合估计的 RNN 方法。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算，时间方面在 RNN 中编码。 综合数据用于训练。

 # 分割影片