提交 8cb1895c 编写于 作者: W wizardforcel

2020-09-03 16:09:00

上级 e47bb02c
......@@ -94,7 +94,7 @@ frame_no = 0 while True:
# 融合并行 CNN 进行视频分类
就帧而言,由于图像的下采样,视频的预测可能不会产生良好的结果,从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此,[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流,并行运行视频分类。 进行逐帧预测有两个问题,即:
就帧而言,由于图像的下采样,视频的预测可能不会产生良好的结果,从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此,[Karpathy 等人](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf)建议融合两个流,它们并行运行视频分类。 进行逐帧预测有两个问题,即:
* 由于较大的 CNN 架构,预测可能需要很长时间
* 独立的预测会沿时间维度丢失信息
......@@ -246,7 +246,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,
# 多峰融合
[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态视频融合分类。 这四个模型分别是 3D 卷积特征,2D 光流,3D 光流和 2D 卷积特征。
[杨等人](http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf)提出了一种具有 4 个模型的多模态融合视频分类方法。 这四个模型分别是 3D 卷积特征,2D 光流,3D 光流和 2D 卷积特征。
该方法的数据流如下所示:
......@@ -312,7 +312,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,
# 跟踪人脸标志
视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获人脸动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用 RNN 的视频中的人脸标志和联合估计的检测和跟踪方法 。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。
视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获人脸动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。 [Gu 等人](http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf)提出了一种使用视频中的人脸标志的检测和跟踪的联合估计的 RNN 方法。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。
# 分割影片
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册