From 0e2c28ce87f0f49f136b4766b461b1ea7bd1fdd5 Mon Sep 17 00:00:00 2001 From: dengkaipeng Date: Thu, 28 Feb 2019 20:38:48 +0800 Subject: [PATCH] refine lstm/tsn doc --- .../video/models/attention_cluster/README.md | 2 +- .../video/models/attention_lstm/README.md | 12 ++++++++++++ fluid/PaddleCV/video/models/tsn/README.md | 16 +++++++++++++--- 3 files changed, 26 insertions(+), 4 deletions(-) diff --git a/fluid/PaddleCV/video/models/attention_cluster/README.md b/fluid/PaddleCV/video/models/attention_cluster/README.md index af2d017f..35873e0b 100644 --- a/fluid/PaddleCV/video/models/attention_cluster/README.md +++ b/fluid/PaddleCV/video/models/attention_cluster/README.md @@ -104,6 +104,6 @@ Attention Cluster模型使用2nd-Youtube-8M数据集, 数据下载及准备请 ## 版本更新 -- 3/2018: 新增模型 +- 3/2019: 新增模型 diff --git a/fluid/PaddleCV/video/models/attention_lstm/README.md b/fluid/PaddleCV/video/models/attention_lstm/README.md index ddfc389f..5edd871a 100644 --- a/fluid/PaddleCV/video/models/attention_lstm/README.md +++ b/fluid/PaddleCV/video/models/attention_lstm/README.md @@ -9,6 +9,8 @@ - [模型训练](#模型训练) - [模型评估](#模型评估) - [模型推断](#模型推断) +- [参考论文](#参考论文) +- [版本更新](#版本更新) ## 模型简介 @@ -88,3 +90,13 @@ AttentionLSTM模型使用2nd-Youtube-8M数据集,关于数据本分请参考[ - 若未指定`--weights`参数,脚本会下载Paddle release权重[PaddleAttentionLSTM](https://paddlemodels.bj.bcebos.com/video_classification/attention_lstm_youtube8m.tar.gz)进行推断 +## 参考论文 + +- [Beyond Short Snippets: Deep Networks for Video Classification](https://arxiv.org/abs/1503.08909) Joe Yue-Hei Ng, Matthew Hausknecht, Sudheendra Vijayanarasimhan, Oriol Vinyals, Rajat Monga, George Toderici + +- [Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification](https://arxiv.org/abs/1711.09550) Xiang Long, Chuang Gan, Gerard de Melo, Jiajun Wu, Xiao Liu, Shilei Wen + +## 版本更新 + +- 3/2019: 新增模型 + diff --git a/fluid/PaddleCV/video/models/tsn/README.md b/fluid/PaddleCV/video/models/tsn/README.md index 936e957b..7c447b1f 100644 --- a/fluid/PaddleCV/video/models/tsn/README.md +++ b/fluid/PaddleCV/video/models/tsn/README.md @@ -3,14 +3,16 @@ --- ## 内容 -- [简介](#简介) +- [模型简介](#模型简介) - [数据准备](#数据准备) - [模型训练](#模型训练) - [模型评估](#模型评估) - [模型推断](#模型推断) +- [参考论文](#参考论文) +- [版本更新](#版本更新) -## 简介 +## 模型简介 Temporal Segment Network (TSN) 是视频分类领域经典的基于2D-CNN的解决方案。该方法主要解决视频的长时间行为判断问题,通过稀疏采样视频帧的方式代替稠密采样,既能捕获视频全局信息,也能去除冗余,降低计算量。最终将每帧特征平均融合后得到视频的整体特征,并用于分类。本代码实现的模型为基于单路RGB图像的TSN网络结构,Backbone采用ResNet-50结构。 @@ -57,7 +59,7 @@ TSN的训练数据采用由DeepMind公布的Kinetics-400动作识别数据集。 当取如下参数时,在Kinetics400的validation数据集下评估精度如下: -| seg\_num | target\_size | Prec@1 | +| seg\_num | target\_size | Top-1 | | :------: | :----------: | :----: | | 3 | 224 | 0.66 | | 7 | 224 | 0.67 | @@ -76,3 +78,11 @@ TSN的训练数据采用由DeepMind公布的Kinetics-400动作识别数据集。 - 若未指定`--weights`参数,脚本会下载Paddle release权重[PaddleTSN](https://paddlemodels.bj.bcebos.com/video_classification/attention_tsn_kinetics.tar.gz)进行推断 +## 参考论文 + +- [StNet:Local and Global Spatial-Temporal Modeling for Human Action Recognition](https://arxiv.org/abs/1608.00859) Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, Luc Van Gool + +## 版本更新 + +- 3/2019: 新增模型 + -- GitLab