提交 058a9516 编写于 作者: S SunGaofeng 提交者: qingqing01

fix description of video in models/readme (#2634)

* fix description of video in models/readme to be same as PaddleVideo/readme
* add c2d and i3d backbone in nonloal/readme
* fix table format of nonlocal/readme
上级 bd9b2259
...@@ -126,25 +126,18 @@ Non-local模型的训练数据采用由DeepMind公布的Kinetics-400动作识别 ...@@ -126,25 +126,18 @@ Non-local模型的训练数据采用由DeepMind公布的Kinetics-400动作识别
- 若未指定`--weights`参数,脚本会下载已发布模型[model](https://paddlemodels.bj.bcebos.com/video_classification/nonlocal_kinetics.tar.gz)进行评估 - 若未指定`--weights`参数,脚本会下载已发布模型[model](https://paddlemodels.bj.bcebos.com/video_classification/nonlocal_kinetics.tar.gz)进行评估
实现了C2D-ResNet50, C2D-ResNet101, I3D-ResNet50三种网络结构,在Kinetics400的validation数据集下评估精度如下:
当取如下参数时: | 网络结构 | 采样频率 | 视频长度 | TOP\_1 |
| :-----------: | :------: |:-------: |:-------: |
| 参数 | 取值 | | C2D-ResNet50 | 8 | 8 | 73.9% |
| :---------: | :----: | | C2D-ResNet101 | 8 | 8 | 74.5% |
| back bone | Resnet-50 | | I3D-ResNet50 | 8 | 8 | 74.3% |
| 卷积形式 | c2d |
| 采样频率 | 8 |
| 视频长度 | 8 |
在Kinetics400的validation数据集下评估精度如下:
| 精度指标 | 模型精度 |
| :---------: | :----: |
| TOP\_1 | 0.739 |
### 备注 ### 备注
由于Youtube上部分数据已删除,只下载到了kinetics400数据集中的234619条,而原始数据集包含246535条视频,可能会导致精度略微下降。 - 由于Youtube上部分数据已删除,只下载到了kinetics400数据集中的234619条,而原始数据集包含246535条视频,可能会导致精度略微下降。
- 使用不同的网络结构,需要在configs/nonlocal.txt中修改video\_arc\_choice,1为C2D-ResNet50,2为I3D-ResNet50,3则是C2D-ResNet101。
## 模型推断 ## 模型推断
......
...@@ -110,18 +110,18 @@ PaddlePaddle 提供了丰富的计算单元,使得用户可以采用模块化 ...@@ -110,18 +110,18 @@ PaddlePaddle 提供了丰富的计算单元,使得用户可以采用模块化
### 视频分类和动作定位 ### 视频分类和动作定位
视频分类是视频理解任务的基础,包含语音数据、包含运动信息等的视频对象,因此理解视频需要获得更多的上下文信息,不仅要理解每帧图像是什么、包含什么,还需要结合不同帧,知道上下文的关联信息。视频分类方法主要包含基于卷积神经网络、基于循环神经网络、或将这两者结合的方法 视频分类和动作定位是视频理解任务的基础。视频数据包含语音、图像等多种信息,因此理解视频任务不仅需要处理语音和图像,还需要提取视频帧时间序列中的上下文信息。视频分类模型提供了提取全局时序特征的方法,主要方式有卷积神经网络(C3D,I3D,C2D等),神经网络和传统图像算法结合(VLAD等),循环神经网络等建模方法。视频动作定位模型需要同时识别视频动作的类别和起止时间点,通常采用类似于图像目标检测中的算法在时间维度上进行建模
| 模型名称 | 模型简介 | 数据集 | 评估指标 | | 模型名称 | 模型简介 | 数据集 | 评估指标 |
| ------------------------------------------------------------ | ------------------------------------------------------------ | -------------------------- | ----------- | | ------------------------------------------------------------ | ------------------------------------------------------------ | -------------------------- | ----------- |
| [TSN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ECCV'16,基于2D-CNN的经典网络结构,首次引入序列信息到视频分类,证明序列信息有效性 | Kinetics-400 | Top-1 = 67% | | [TSN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ECCV'16提出的基于2D-CNN经典解决方案 | Kinetics-400 | Top-1 = 67% |
| [Non-Local](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 视频非局部关联建模模型,引入类似self-attention机制,效果好,计算量大 | Kinetics-400 | Top-1 = 62% | | [Non-Local](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 视频非局部关联建模模型 | Kinetics-400 | Top-1 = 74% |
| [stNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ActivityNet2018 最佳single模型,AAAI19,融合局部与全局的时序模型 | Kinetics-400 | Top-1 = 69% | | [stNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | AAAI'19提出的视频联合时空建模方法 | Kinetics-400 | Top-1 = 69% |
| [TSM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | TSN改进版,简单高效,计算简单,当前的SOTA | Kinetics-400 | Top-1 = 70% | | [TSM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 基于时序移位的简单高效视频时空建模方法 | Kinetics-400 | Top-1 = 70% |
| [Attention LSTM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ActivityNet17最佳single model,更稳定的时序模型 | Youtube-8M | GAP = 86% | | [Attention LSTM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 常用模型,速度快精度高 | Youtube-8M | GAP = 86% |
| [Attention Cluster](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | CVPR18,引入不同模态的不同注意力聚合模型,更好捕获特征间的组合关系 | Youtube-8M | GAP = 87% | | [Attention Cluster](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | CVPR'18提出的视频多模态特征注意力聚簇融合方法 | Youtube-8M | GAP = 84% |
| [NeXtVlad](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | Youtube-8M 2018最佳single model,弱化时序关系,适合建模短视频 | Youtube-8M | GAP = 87% | | [NeXtVlad](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 2nd-Youtube-8M最优单模型 | Youtube-8M | GAP = 87% |
| [C-TCN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 2018年ActivityNet夺冠方案,提供了处理视频动作定位问题的解决方案 | ActivityNet1.3提供的数据集 | Top1=31% | | [C-TCN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 2018年ActivityNet夺冠方案 | ActivityNet1.3 | MAP=31% |
## PaddleNLP ## PaddleNLP
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册