From 058a95162f531f6d3ad68f2839dc2806a6342c9f Mon Sep 17 00:00:00 2001
From: SunGaofeng <peakbee@gmail.com>
Date: Mon, 1 Jul 2019 13:06:16 +0800
Subject: [PATCH] fix description of video in models/readme (#2634)

* fix description of video in models/readme to be same as PaddleVideo/readme
* add c2d and i3d backbone in nonloal/readme
* fix table format of nonlocal/readme
---
 .../models/nonlocal_model/README.md           | 23 +++++++------------
 README.md                                     | 20 ++++++++--------
 2 files changed, 18 insertions(+), 25 deletions(-)

diff --git a/PaddleCV/PaddleVideo/models/nonlocal_model/README.md b/PaddleCV/PaddleVideo/models/nonlocal_model/README.md
index c551b6ea..a886d11a 100644
--- a/PaddleCV/PaddleVideo/models/nonlocal_model/README.md
+++ b/PaddleCV/PaddleVideo/models/nonlocal_model/README.md
@@ -126,25 +126,18 @@ Non-local模型的训练数据采用由DeepMind公布的Kinetics-400动作识别
 
 - 若未指定`--weights`参数，脚本会下载已发布模型[model](https://paddlemodels.bj.bcebos.com/video_classification/nonlocal_kinetics.tar.gz)进行评估
 
+实现了C2D-ResNet50, C2D-ResNet101, I3D-ResNet50三种网络结构，在Kinetics400的validation数据集下评估精度如下：
 
-当取如下参数时:
-
-| 参数 | 取值 |
-| :---------: | :----: |
-| back bone | Resnet-50 |
-| 卷积形式 | c2d |
-| 采样频率 | 8 |
-| 视频长度 | 8 |
-
-在Kinetics400的validation数据集下评估精度如下:
-
-| 精度指标 | 模型精度 |
-| :---------: | :----: |
-| TOP\_1 | 0.739 |
+| 网络结构 | 采样频率 | 视频长度 | TOP\_1 |
+| :-----------: | :------: |:-------: |:-------: |
+| C2D-ResNet50 | 8 | 8 | 73.9% |
+| C2D-ResNet101 | 8 | 8 | 74.5% |
+| I3D-ResNet50 | 8 | 8 | 74.3% |
 
 ### 备注
 
-由于Youtube上部分数据已删除，只下载到了kinetics400数据集中的234619条，而原始数据集包含246535条视频，可能会导致精度略微下降。
+- 由于Youtube上部分数据已删除，只下载到了kinetics400数据集中的234619条，而原始数据集包含246535条视频，可能会导致精度略微下降。
+- 使用不同的网络结构，需要在configs/nonlocal.txt中修改video\_arc\_choice，1为C2D-ResNet50，2为I3D-ResNet50，3则是C2D-ResNet101。
 
 ## 模型推断
 
diff --git a/README.md b/README.md
index 97cb18dc..d1b7db18 100644
--- a/README.md
+++ b/README.md
@@ -1,4 +1,4 @@
-# PaddlePaddle Models 
+# PaddlePaddle Models
 
 [![Documentation Status](https://img.shields.io/badge/docs-latest-brightgreen.svg?style=flat)](https://github.com/PaddlePaddle/models) [![License](https://img.shields.io/badge/license-Apache%202-blue.svg)](LICENSE)
 
@@ -110,18 +110,18 @@ PaddlePaddle 提供了丰富的计算单元，使得用户可以采用模块化
 
 ### 视频分类和动作定位
 
-视频分类是视频理解任务的基础，包含语音数据、包含运动信息等的视频对象，因此理解视频需要获得更多的上下文信息，不仅要理解每帧图像是什么、包含什么，还需要结合不同帧，知道上下文的关联信息。视频分类方法主要包含基于卷积神经网络、基于循环神经网络、或将这两者结合的方法。
+视频分类和动作定位是视频理解任务的基础。视频数据包含语音、图像等多种信息，因此理解视频任务不仅需要处理语音和图像，还需要提取视频帧时间序列中的上下文信息。视频分类模型提供了提取全局时序特征的方法，主要方式有卷积神经网络(C3D,I3D,C2D等)，神经网络和传统图像算法结合(VLAD等)，循环神经网络等建模方法。视频动作定位模型需要同时识别视频动作的类别和起止时间点，通常采用类似于图像目标检测中的算法在时间维度上进行建模。
 
 | 模型名称                                                     | 模型简介                                                     | 数据集                     | 评估指标    |
 | ------------------------------------------------------------ | ------------------------------------------------------------ | -------------------------- | ----------- |
-| [TSN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ECCV'16，基于2D-CNN的经典网络结构，首次引入序列信息到视频分类，证明序列信息有效性 | Kinetics-400               | Top-1 = 67% |
-| [Non-Local](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 视频非局部关联建模模型，引入类似self-attention机制，效果好，计算量大 | Kinetics-400               | Top-1 = 62% |
-| [stNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ActivityNet2018 最佳single模型，AAAI19，融合局部与全局的时序模型 | Kinetics-400               | Top-1 = 69% |
-| [TSM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | TSN改进版，简单高效，计算简单，当前的SOTA                    | Kinetics-400               | Top-1 = 70% |
-| [Attention   LSTM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ActivityNet17最佳single model，更稳定的时序模型              | Youtube-8M                 | GAP   = 86% |
-| [Attention   Cluster](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | CVPR18，引入不同模态的不同注意力聚合模型，更好捕获特征间的组合关系 | Youtube-8M                 | GAP   = 87% |
-| [NeXtVlad](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | Youtube-8M 2018最佳single model，弱化时序关系，适合建模短视频 | Youtube-8M                 | GAP   = 87% |
-| [C-TCN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 2018年ActivityNet夺冠方案，提供了处理视频动作定位问题的解决方案 | ActivityNet1.3提供的数据集 | Top1=31%    |
+| [TSN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ECCV'16提出的基于2D-CNN经典解决方案 | Kinetics-400               | Top-1 = 67% |
+| [Non-Local](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 视频非局部关联建模模型 | Kinetics-400               | Top-1 = 74% |
+| [stNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | AAAI'19提出的视频联合时空建模方法 | Kinetics-400               | Top-1 = 69% |
+| [TSM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 基于时序移位的简单高效视频时空建模方法 | Kinetics-400               | Top-1 = 70% |
+| [Attention   LSTM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 常用模型，速度快精度高 | Youtube-8M                 | GAP   = 86% |
+| [Attention   Cluster](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | CVPR'18提出的视频多模态特征注意力聚簇融合方法 | Youtube-8M                 | GAP   = 84% |
+| [NeXtVlad](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 2nd-Youtube-8M最优单模型 | Youtube-8M                 | GAP   = 87% |
+| [C-TCN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 2018年ActivityNet夺冠方案 | ActivityNet1.3 | MAP=31%    |
 
 ## PaddleNLP
 
-- 
GitLab