Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
安浅Y
apachecn-dl-zh
提交
8cb1895c
A
apachecn-dl-zh
项目概览
安浅Y
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
8cb1895c
编写于
9月 03, 2020
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2020-09-03 16:09:00
上级
e47bb02c
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
3 deletion
+3
-3
docs/dl-cv/09.md
docs/dl-cv/09.md
+3
-3
未找到文件。
docs/dl-cv/09.md
浏览文件 @
8cb1895c
...
...
@@ -94,7 +94,7 @@ frame_no = 0 while True:
# 融合并行 CNN 进行视频分类
就帧而言,由于图像的下采样,视频的预测可能不会产生良好的结果,从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此,
[
Karpathy 等人
](
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf
)
建议融合两个流,并行运行视频分类。 进行逐帧预测有两个问题,即:
就帧而言,由于图像的下采样,视频的预测可能不会产生良好的结果,从而丢失了精细的细节。 使用高分辨率的 CNN 将增加推理时间。 因此,
[
Karpathy 等人
](
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf
)
建议融合两个流,
它们
并行运行视频分类。 进行逐帧预测有两个问题,即:
*
由于较大的 CNN 架构,预测可能需要很长时间
*
独立的预测会沿时间维度丢失信息
...
...
@@ -246,7 +246,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,
# 多峰融合
[
杨等人
](
http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf
)
提出了一种具有 4 个模型的多模态
视频融合分类
。 这四个模型分别是 3D 卷积特征,2D 光流,3D 光流和 2D 卷积特征。
[
杨等人
](
http://research.nvidia.com/sites/default/files/pubs/2016-10_Multilayer-and-Multimodal/MM16.pdf
)
提出了一种具有 4 个模型的多模态
融合视频分类方法
。 这四个模型分别是 3D 卷积特征,2D 光流,3D 光流和 2D 卷积特征。
该方法的数据流如下所示:
...
...
@@ -312,7 +312,7 @@ net.compile(loss=tf.keras.losses.categorical_crossentropy,
# 跟踪人脸标志
视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获人脸动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。
[
Gu 等人
](
http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf
)
提出了一种使用
RNN 的视频中的人脸标志和联合估计的检测和跟踪方法
。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。
视频中的人脸分析需要人脸检测,界标检测,姿势估计,验证等。 计算地标对于捕获人脸动画,人机交互和人类活动识别尤其重要。 除了在帧上进行计算外,还可以在视频上进行计算。
[
Gu 等人
](
http://research.nvidia.com/sites/default/files/pubs/2017-07_Dynamic-Facial-Analysis/rnnface.pdf
)
提出了一种使用
视频中的人脸标志的检测和跟踪的联合估计的 RNN 方法
。 结果优于逐帧预测和其他先前模型。 地标由 CNN 计算,时间方面在 RNN 中编码。 综合数据用于训练。
# 分割影片
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录