Add gpu num for localization, tsm, i3d, tsn and also add gpu num comments in config files

3190a4aa · linjintao · 8c550d7c · 3190a4aa · 3190a4aa · 3190a4aa
62 changed file
--- a/configs/localization/bmn/README.md
+++ b/configs/localization/bmn/README.md
@@ -6,10 +6,10 @@

 |config | gpus | pretrain | AR@100| AUC | gpu_mem(M) | iter time(s) | ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|[bmn_400x100_9e_2x8_activitynet_feature](/configs/localization/bmn/bmn_400x100_2x8_9e_activitynet_feature.py) |x| None |75.28|67.22|5420|3.27|[ckpt]()| [log]()| [json]()|
+|[bmn_400x100_9e_2x8_activitynet_feature](/configs/localization/bmn/bmn_400x100_2x8_9e_activitynet_feature.py) |2| None |75.28|67.22|5420|3.27|[ckpt]()| [log]()| [json]()|

 Notes:
-1. The **gpus** indicates the number of gpu we used to get the checkpoint. It is noteworthy that the configs we provide are used for 8 gpus as default.
+1. The **gpus** indicates the number of gpu we used to get the checkpoint.
 According to the [Linear Scaling Rule](https://arxiv.org/abs/1706.02677), you may set the learning rate proportional to the batch size if you use different GPUs or videos per GPU,
 e.g., lr=0.01 for 4 GPUs * 2 video/gpu and lr=0.08 for 16 GPUs * 4 video/gpu.


--- a/configs/localization/bmn/bmn_400x100_2x8_9e_activitynet_feature.py
+++ b/configs/localization/bmn/bmn_400x100_2x8_9e_activitynet_feature.py
@@ -84,7 +84,8 @@ data = dict(
        data_prefix=data_root))

 # optimizer
-optimizer = dict(type='Adam', lr=0.001, weight_decay=0.0001)
+optimizer = dict(
+    type='Adam', lr=0.001, weight_decay=0.0001)  # this lr is used for 2 gpus
 optimizer_config = dict(grad_clip=None)
 # learning policy
 lr_config = dict(policy='step', step=7)

--- a/configs/localization/bsn/README.md
+++ b/configs/localization/bsn/README.md
@@ -6,10 +6,10 @@

 |config | gpus| pretrain | AR@100| AUC | gpu_mem(M) | iter time(s) | ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|bsn_400x100_1x16_20e_activitynet_feature |x| None |74.65|66.45|41(TEM)+25(PEM)|0.074(TEM)+0.036(PEM)|[ckpt_tem]() [ckpt_pem]()| [log_tem]() [log_pem]()| [json_tem]()  [json_pem]()||
+|bsn_400x100_1x16_20e_activitynet_feature |1| None |74.65|66.45|41(TEM)+25(PEM)|0.074(TEM)+0.036(PEM)|[ckpt_tem]() [ckpt_pem]()| [log_tem]() [log_pem]()| [json_tem]()  [json_pem]()||

 Notes:
-1. The **gpus** indicates the number of gpu we used to get the checkpoint. It is noteworthy that the configs we provide are used for 8 gpus as default.
+1. The **gpus** indicates the number of gpu we used to get the checkpoint.
 According to the [Linear Scaling Rule](https://arxiv.org/abs/1706.02677), you may set the learning rate proportional to the batch size if you use different GPUs or videos per GPU,
 e.g., lr=0.01 for 4 GPUs * 2 video/gpu and lr=0.08 for 16 GPUs * 4 video/gpu.


--- a/configs/localization/bsn/bsn_pem_400x100_1x16_20e_activitynet_feature.py
+++ b/configs/localization/bsn/bsn_pem_400x100_1x16_20e_activitynet_feature.py
@@ -99,7 +99,8 @@ data = dict(
        data_prefix=data_root))

 # optimizer
-optimizer = dict(type='Adam', lr=0.01, weight_decay=0.00001)
+optimizer = dict(
+    type='Adam', lr=0.01, weight_decay=0.00001)  # this lr is used for 1 gpus

 optimizer_config = dict(grad_clip=None)
 # learning policy

--- a/configs/localization/bsn/bsn_tem_400x100_1x16_20e_activitynet_feature.py
+++ b/configs/localization/bsn/bsn_tem_400x100_1x16_20e_activitynet_feature.py
@@ -73,7 +73,8 @@ data = dict(
        data_prefix=data_root))

 # optimizer
-optimizer = dict(type='Adam', lr=0.001, weight_decay=0.0001)
+optimizer = dict(
+    type='Adam', lr=0.001, weight_decay=0.0001)  # this lr is used for 1 gpus

 optimizer_config = dict(grad_clip=None)
 # learning policy

--- a/configs/recognition/i3d/README.md
+++ b/configs/recognition/i3d/README.md
@@ -6,11 +6,11 @@

 |config | gpus | backbone |pretrain| top1 acc| top5 acc | inference_time(video/s) | gpu_mem(M)| ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|[i3d_r34_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r34_32x2x1_100e_kinetics400_rgb.py) |x| ResNet34|ImageNet |68.37|88.15|1.6 (320x3 frames)| 3176| [ckpt]() | [log]()| [json]()|
-|[i3d_r50_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r50_32x2x1_100e_kinetics400_rgb.py) |x| ResNet50|ImageNet |72.68|90.78|1.7 (320x3 frames)| 5170|[ckpt]() | [log]()| [json]()|
-|[i3d_r50_dense_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r50_dense_32x2x1_100e_kinetics400_rgb.py) |x| ResNet50| ImageNet|72.77|90.57|1.7 (320x3 frames)| 5170| [ckpt]() | [log]()| [json]()|
-|[i3d_r50_fast_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r50_fast_32x2x1_100e_kinetics400_rgb.py) |x| ResNet50 |ImageNet|72.32|90.72|1.8 (320x3 frames)| 5170| [ckpt]() | [log]()| [json]()|
-|[i3d_r50_video_3d_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r50_video_32x2x1_100e_kinetics400_rgb.py) |x| ResNet50| ImageNet| x | x | x| x| [ckpt]() | [log]()| [json]()|
+|[i3d_r34_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r34_32x2x1_100e_kinetics400_rgb.py) |8| ResNet34|ImageNet |68.37|88.15|1.6 (320x3 frames)| 3176| [ckpt]() | [log]()| [json]()|
+|[i3d_r50_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r50_32x2x1_100e_kinetics400_rgb.py) |8| ResNet50|ImageNet |72.68|90.78|1.7 (320x3 frames)| 5170|[ckpt]() | [log]()| [json]()|
+|[i3d_r50_dense_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r50_dense_32x2x1_100e_kinetics400_rgb.py) |8x2| ResNet50| ImageNet|72.77|90.57|1.7 (320x3 frames)| 5170| [ckpt]() | [log]()| [json]()|
+|[i3d_r50_fast_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r50_fast_32x2x1_100e_kinetics400_rgb.py) |8| ResNet50 |ImageNet|72.32|90.72|1.8 (320x3 frames)| 5170| [ckpt]() | [log]()| [json]()|
+|[i3d_r50_video_3d_32x2x1_100e_kinetics400_rgb](/configs/recognition/i3d/i3d_r50_video_32x2x1_100e_kinetics400_rgb.py) |8| ResNet50| ImageNet| x | x | x| x| [ckpt]() | [log]()| [json]()|

 Notes:
 1. The **gpus** indicates the number of gpu we used to get the checkpoint. It is noteworthy that the configs we provide are used for 8 gpus as default.

--- a/configs/recognition/i3d/i3d_r34_32x2x1_100e_kinetics400_rgb.py
+++ b/configs/recognition/i3d/i3d_r34_32x2x1_100e_kinetics400_rgb.py
@@ -100,7 +100,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/i3d/i3d_r50_32x2x1_100e_kinetics400_rgb.py
+++ b/configs/recognition/i3d/i3d_r50_32x2x1_100e_kinetics400_rgb.py
@@ -101,7 +101,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/i3d/i3d_r50_8x8x1_100e_kinetics400_rgb.py
+++ b/configs/recognition/i3d/i3d_r50_8x8x1_100e_kinetics400_rgb.py
@@ -101,7 +101,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/i3d/i3d_r50_dense_32x2x1_100e_kinetics400_rgb.py
+++ b/configs/recognition/i3d/i3d_r50_dense_32x2x1_100e_kinetics400_rgb.py
@@ -101,7 +101,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/i3d/i3d_r50_fast_32x2x1_100e_kinetics400_rgb.py
+++ b/configs/recognition/i3d/i3d_r50_fast_32x2x1_100e_kinetics400_rgb.py
@@ -115,7 +115,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/i3d/i3d_r50_video_32x2x1_100e_kinetics400_rgb.py
+++ b/configs/recognition/i3d/i3d_r50_video_32x2x1_100e_kinetics400_rgb.py
@@ -104,7 +104,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/r2plus1d/r2plus1d_r34_32x2x1_180e_kinetics400_rgb.py
+++ b/configs/recognition/r2plus1d/r2plus1d_r34_32x2x1_180e_kinetics400_rgb.py
@@ -104,7 +104,9 @@ data = dict(
        pipeline=test_pipeline,
        test_mode=True))
 # optimizer
-optimizer = dict(type='SGD', lr=0.075, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.075, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/r2plus1d/r2plus1d_r34_8x8x1_180e_kinetics400_rgb.py
+++ b/configs/recognition/r2plus1d/r2plus1d_r34_8x8x1_180e_kinetics400_rgb.py
@@ -104,7 +104,9 @@ data = dict(
        pipeline=test_pipeline,
        test_mode=True))
 # optimizer
-optimizer = dict(type='SGD', lr=0.1, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.1, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/r2plus1d/r2plus1d_r34_video_8x8x1_180e_kinetics400_rgb.py
+++ b/configs/recognition/r2plus1d/r2plus1d_r34_video_8x8x1_180e_kinetics400_rgb.py
@@ -108,7 +108,9 @@ data = dict(
        pipeline=test_pipeline,
        test_mode=True))
 # optimizer
-optimizer = dict(type='SGD', lr=0.2, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.2, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/slowfast/slowfast_r50_4x16x1_256e_kinetics400_rgb.py
+++ b/configs/recognition/slowfast/slowfast_r50_4x16x1_256e_kinetics400_rgb.py
@@ -110,7 +110,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.1, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.1, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/slowfast/slowfast_r50_8x8x1_256e_kinetics400_rgb.py
+++ b/configs/recognition/slowfast/slowfast_r50_8x8x1_256e_kinetics400_rgb.py
@@ -110,7 +110,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.1, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.1, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/slowfast/slowfast_r50_video_4x16x1_256e_kinetics400_rgb.py
+++ b/configs/recognition/slowfast/slowfast_r50_video_4x16x1_256e_kinetics400_rgb.py
@@ -113,7 +113,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.1, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.1, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/slowonly/slowonly_r50_4x16x1_256e_kinetics400_flow.py
+++ b/configs/recognition/slowonly/slowonly_r50_4x16x1_256e_kinetics400_flow.py
@@ -100,7 +100,9 @@ data = dict(
        filename_tmpl='{}_{:05d}.jpg',
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.06, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.06, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(

--- a/configs/recognition/slowonly/slowonly_r50_4x16x1_256e_kinetics400_rgb.py
+++ b/configs/recognition/slowonly/slowonly_r50_4x16x1_256e_kinetics400_rgb.py
@@ -93,7 +93,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.6, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.6, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/slowonly/slowonly_r50_8x8x1_256e_kinetics400_flow.py
+++ b/configs/recognition/slowonly/slowonly_r50_8x8x1_256e_kinetics400_flow.py
@@ -100,7 +100,9 @@ data = dict(
        filename_tmpl='{}_{:05d}.jpg',
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.06, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.06, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(

--- a/configs/recognition/slowonly/slowonly_r50_8x8x1_256e_kinetics400_rgb.py
+++ b/configs/recognition/slowonly/slowonly_r50_8x8x1_256e_kinetics400_rgb.py
@@ -93,7 +93,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.6, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.6, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/slowonly/slowonly_r50_video_4x16x1_256e_kinetics400_rgb.py
+++ b/configs/recognition/slowonly/slowonly_r50_video_4x16x1_256e_kinetics400_rgb.py
@@ -96,7 +96,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.1, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.1, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='CosineAnealing', min_lr=0)

--- a/configs/recognition/tin/README.md
+++ b/configs/recognition/tin/README.md
@@ -6,8 +6,8 @@

 |config | gpus | backbone| pretrain | top1 acc| top5 acc | inference_time(video/s) | gpu_mem(M)| ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|[tin_r50_1x1x8_35e_kinetics400_rgb](/configs/recognition/tin/tin_r50_1x1x8_35e_kinetics400_rgb.py) |x| ResNet50| ImageNet |69.44|89.19|16.5 (8x1 frames)| 6173| [ckpt]() | [log]()| [json]()|
-|[tin_r50_finetune_1x1x8_35e_kinetics400_rgb](/configs/recognition/tin/tin_r50_finetune_1x1x8_35e_kinetics400_rgb.py) |x| ResNet50| ImageNet |71.00|89.98| x | 6174 | [ckpt]() | [log]()| [json]()|
+|[tin_r50_1x1x8_35e_kinetics400_rgb](/configs/recognition/tin/tin_r50_1x1x8_35e_kinetics400_rgb.py) |8| ResNet50| ImageNet |69.44|89.19|16.5 (8x1 frames)| 6173| [ckpt]() | [log]()| [json]()|
+|[tin_r50_finetune_1x1x8_35e_kinetics400_rgb](/configs/recognition/tin/tin_r50_finetune_1x1x8_35e_kinetics400_rgb.py) |8| ResNet50| ImageNet |71.00|89.98| x | 6174 | [ckpt]() | [log]()| [json]()|
 |[tin_r50_video_2d_1x1x8_35e_kinetics400_rgb](/configs/recognition/tin/tin_r50_video_1x1x8_35e_kinetics400_rgb.py) |x| ResNet50 | ImageNet | x | x | x | x | [ckpt]() | [log]()| [json]()|

 ### Something-Something V1

--- a/configs/recognition/tin/tin_r50_1x1x8_35e_kinetics400_rgb.py
+++ b/configs/recognition/tin/tin_r50_1x1x8_35e_kinetics400_rgb.py
@@ -103,7 +103,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.005,
+    lr=0.005,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tin/tin_r50_1x1x8_35e_sthv1_rgb.py
+++ b/configs/recognition/tin/tin_r50_1x1x8_35e_sthv1_rgb.py
@@ -106,7 +106,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.005,
+    lr=0.005,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tin/tin_r50_1x1x8_35e_sthv2_rgb.py
+++ b/configs/recognition/tin/tin_r50_1x1x8_35e_sthv2_rgb.py
@@ -106,7 +106,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.005,
+    lr=0.005,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tin/tin_r50_finetune_1x1x8_35e_kinetics400_rgb.py
+++ b/configs/recognition/tin/tin_r50_finetune_1x1x8_35e_kinetics400_rgb.py
@@ -103,7 +103,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=False),
-    lr=0.005,
+    lr=0.005,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tin/tin_r50_video_1x1x8_35e_kinetics400_rgb.py
+++ b/configs/recognition/tin/tin_r50_video_1x1x8_35e_kinetics400_rgb.py
@@ -106,7 +106,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.005,
+    lr=0.005,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/README.md
+++ b/configs/recognition/tsm/README.md
@@ -6,16 +6,16 @@

 |config | gpus | backbone | pretrain | top1 acc| top5 acc | inference_time(video/s) | gpu_mem(M)| ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|[tsm_r50_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsm/tsm_r50_1x1x8_50e_kinetics400_rgb.py) |x| ResNet50| ImageNet |70.24|89.56|74.0 (8x1 frames)| 7079 | [ckpt]() | [log]()| [json]()|
-|[tsm_r50_dense_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsm/tsm_r50_dense_1x1x8_100e_kinetics400_rgb.py) |x| ResNet50 | ImageNet|71.84|90.18|11.5 (8x10 frames)| 7079 | [ckpt]() | [log]()| [json]()|
-|[tsm_r50_1x1x16_50e_kinetics400_rgb](/configs/recognition/tsm/tsm_r50_1x1x16_50e_kinetics400_rgb.py) |x| ResNet50| ImageNet |71.69|90.4|47.0 (16x1 frames)| 10404  | [ckpt]() | [log]()| [json]()|
+|[tsm_r50_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsm/tsm_r50_1x1x8_50e_kinetics400_rgb.py) |8| ResNet50| ImageNet |70.24|89.56|74.0 (8x1 frames)| 7079 | [ckpt]() | [log]()| [json]()|
+|[tsm_r50_dense_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsm/tsm_r50_dense_1x1x8_100e_kinetics400_rgb.py) |8x4| ResNet50 | ImageNet|71.84|90.18|11.5 (8x10 frames)| 7079 | [ckpt]() | [log]()| [json]()|
+|[tsm_r50_1x1x16_50e_kinetics400_rgb](/configs/recognition/tsm/tsm_r50_1x1x16_50e_kinetics400_rgb.py) |8| ResNet50| ImageNet |71.69|90.4|47.0 (16x1 frames)| 10404  | [ckpt]() | [log]()| [json]()|
 |[tsm_r50_video_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsm/tsm_r50_video_1x1x8_100e_kinetics400_rgb.py) |x| ResNet50| ImageNet | x | x | x | 7077 | [ckpt]() | [log]()| [json]()|

 ### Something-Something V1

 |config | gpus | backbone| pretrain | top1 acc| top5 acc | gpu_mem(M)  | ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|[tsm_r50_1x1x8_50e_sthv1_rgb](/configs/recognition/tsm/tsm_r50_1x1x8_50e_sthv1_rgb.py) |x| ResNet50 | ImageNet|44.62|75.51| 7077| [ckpt]() | [log]()| [json]()|
+|[tsm_r50_1x1x8_50e_sthv1_rgb](/configs/recognition/tsm/tsm_r50_1x1x8_50e_sthv1_rgb.py) |8| ResNet50 | ImageNet|44.62|75.51| 7077| [ckpt]() | [log]()| [json]()|
 |[tsm_r50_1x1x16_50e_sthv1_rgb](/configs/recognition/tsm/tsm_r50_1x1x16_50e_sthv1_rgb.py) |x| ResNet50 | ImageNet|43.81|74.73| x | [ckpt]() | [log]()| [json]()|
 |[tsm_r101_1x1x8_50e_sthv1_rgb](/configs/recognition/tsm/tsm_r101_1x1x8_50e_sthv1_rgb.py) |x| ResNet101| ImageNet |46.41|74.07| x | [ckpt]() | [log]()| [json]()|

@@ -24,8 +24,8 @@
 |config | gpus | backbone | pretrain| top1 acc| top5 acc | gpu_mem(M)  | ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
 |[tsm_r50_1x1x8_50e_sthv2_rgb](/configs/recognition/tsm/tsm_r50_1x1x8_50e_sthv2_rgb.py) |x| ResNet50| ImageNet |59.91|84.61| x| [ckpt]() | [log]()| [json]()|
-|[tsm_r50_1x1x16_50e_sthv2_rgb](/configs/recognition/tsm/tsm_r50_1x1x16_50e_sthv2_rgb.py) |x| ResNet50| ImageNet |56.10|84.43| 10400| [ckpt]() | [log]()| [json]()|
-|[tsm_r101_1x1x8_50e_sthv2_rgb](/configs/recognition/tsm/tsm_r101_1x1x8_50e_sthv2_rgb.py) |x| ResNet101 | ImageNet|59.12|85.74| 9784 | [ckpt]() | [log]()| [json]()|
+|[tsm_r50_1x1x16_50e_sthv2_rgb](/configs/recognition/tsm/tsm_r50_1x1x16_50e_sthv2_rgb.py) |8| ResNet50| ImageNet |56.10|84.43| 10400| [ckpt]() | [log]()| [json]()|
+|[tsm_r101_1x1x8_50e_sthv2_rgb](/configs/recognition/tsm/tsm_r101_1x1x8_50e_sthv2_rgb.py) |8| ResNet101 | ImageNet|59.12|85.74| 9784 | [ckpt]() | [log]()| [json]()|

 Notes:
 1. The **gpus** indicates the number of gpu we used to get the checkpoint. It is noteworthy that the configs we provide are used for 8 gpus as default.

--- a/configs/recognition/tsm/tsm_r101_1x1x8_50e_sthv1_rgb.py
+++ b/configs/recognition/tsm/tsm_r101_1x1x8_50e_sthv1_rgb.py
@@ -105,7 +105,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.01,
+    lr=0.01,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0005)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r101_1x1x8_50e_sthv2_rgb.py
+++ b/configs/recognition/tsm/tsm_r101_1x1x8_50e_sthv2_rgb.py
@@ -105,7 +105,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.02,
+    lr=0.02,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0005)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r50_1x1x16_50e_kinetics400_rgb.py
+++ b/configs/recognition/tsm/tsm_r50_1x1x16_50e_kinetics400_rgb.py
@@ -105,7 +105,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.0075,
+    lr=0.0075,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r50_1x1x16_50e_sthv1_rgb.py
+++ b/configs/recognition/tsm/tsm_r50_1x1x16_50e_sthv1_rgb.py
@@ -105,7 +105,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.005,
+    lr=0.005,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0005)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r50_1x1x16_50e_sthv2_rgb.py
+++ b/configs/recognition/tsm/tsm_r50_1x1x16_50e_sthv2_rgb.py
@@ -105,7 +105,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.0075,
+    lr=0.0075,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0005)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r50_1x1x8_50e_kinetics400_rgb.py
+++ b/configs/recognition/tsm/tsm_r50_1x1x8_50e_kinetics400_rgb.py
@@ -105,7 +105,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.01,
+    lr=0.01,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r50_1x1x8_50e_sthv1_rgb.py
+++ b/configs/recognition/tsm/tsm_r50_1x1x8_50e_sthv1_rgb.py
@@ -105,7 +105,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.01,
+    lr=0.01,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0005)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r50_1x1x8_50e_sthv2_rgb.py
+++ b/configs/recognition/tsm/tsm_r50_1x1x8_50e_sthv2_rgb.py
@@ -105,7 +105,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.01,
+    lr=0.01,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0005)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r50_dense_1x1x8_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsm/tsm_r50_dense_1x1x8_100e_kinetics400_rgb.py
@@ -106,7 +106,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.02,
+    lr=0.02,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsm/tsm_r50_video_1x1x8_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsm/tsm_r50_video_1x1x8_100e_kinetics400_rgb.py
@@ -108,7 +108,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.02,
+    lr=0.02,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001)
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))

--- a/configs/recognition/tsn/README.md
+++ b/configs/recognition/tsn/README.md
@@ -6,15 +6,15 @@

 |config | gpus | backbone | pretrain | top1 acc| top5 acc | gpu_mem(M) | ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|[tsn_r50_1x1x3_100e_ucf101_rgb](/configs/recognition/tsn/tsn_r50_1x1x3_80e_ucf101_rgb.py) |x| ResNet50 | ImageNet |80.12|96.09|8332| [ckpt]() | [log]()| [json]()|
+|[tsn_r50_1x1x3_100e_ucf101_rgb](/configs/recognition/tsn/tsn_r50_1x1x3_80e_ucf101_rgb.py) |8| ResNet50 | ImageNet |80.12|96.09|8332| [ckpt]() | [log]()| [json]()|

 ### Kinetics-400

 |config | gpus | backbone|pretrain | top1 acc| top5 acc | inference_time(video/s) | gpu_mem(M)| ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|[tsn_r50_1x1x3_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_1x1x3_100e_kinetics400_rgb.py) |x| ResNet50 | ImageNet|70.60|89.26|4.3 (25x10 frames)|8344| [ckpt]() | [log]()| [json]()|
-|[tsn_r50_1x1x5_50e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_1x1x5_50e_kinetics400_rgb.py) |x| ResNet50| ImageNet |68.64|88.19|86.7 (8x1 frames)|7031| [ckpt]() | [log]()| [json]()|
-|[tsn_r50_dense_1x1x5_50e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_dense_1x1x5_100e_kinetics400_rgb.py) |x| ResNet50| ImageNet |68.59|88.31|12.7 (8x10 frames)|7028| [ckpt]() | [log]()| [json]()|
+|[tsn_r50_1x1x3_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_1x1x3_100e_kinetics400_rgb.py) |8| ResNet50 | ImageNet|70.60|89.26|4.3 (25x10 frames)|8344| [ckpt]() | [log]()| [json]()|
+|[tsn_r50_1x1x5_50e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_1x1x5_50e_kinetics400_rgb.py) |8| ResNet50| ImageNet |68.64|88.19|86.7 (8x1 frames)|7031| [ckpt]() | [log]()| [json]()|
+|[tsn_r50_dense_1x1x5_50e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_dense_1x1x5_100e_kinetics400_rgb.py) |8x3| ResNet50| ImageNet |68.59|88.31|12.7 (8x10 frames)|7028| [ckpt]() | [log]()| [json]()|
 |[tsn_r50_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_1x1x8_100e_kinetics400_rgb.py) |x| ResNet50| ImageNet |69.41|88.37|81.6 (8x1 frames)| x | [ckpt]() | [log]()| [json]()|
 |[tsn_r50_320p_1x1x3_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_320p_1x1x3_100e_kinetics400_rgb.py) |8x2| ResNet50| ImageNet |70.91|89.51|10.7 (25x3 frames)| 8344 | [ckpt]() | [log]() | [json]()|
 |[tsn_r50_320p_1x1x3_110e_kinetics400_flow](/configs/recognition/tsn/tsn_r50_320p_1x1x3_110e_kinetics400_flow.py) |8x2| ResNet50 | ImageNet|55.70|79.85|x| 8471 | [ckpt]() | [log]() | [json]()|
@@ -22,24 +22,24 @@
 |[tsn_r50_320p_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_320p_1x1x8_100e_kinetics400_rgb.py) |8x3| ResNet50| ImageNet |72.41|90.55|11.1 (25x3 frames)| 8344  | [ckpt]() | [log]() | [json]()|
 |[tsn_r50_320p_1x1x8_110e_kinetics400_flow](/configs/recognition/tsn/tsn_r50_320p_1x1x8_110e_kinetics400_flow.py) |8x4| ResNet50 | ImageNet|57.76|80.99|x| 8473 | [ckpt]() | [log]() | [json]()|
 |tsn_r50_320p_1x1x8_kinetics400_twostream [1: 1]* |x| ResNet50| ImageNet |74.64|91.77| x | x | [ckpt]() | [log]()  | [json]()|
-|[tsn_r50_dense_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_dense_1x1x8_100e_kinetics400_rgb.py) |x| ResNet50 | ImageNet|70.77|89.3|12.2 (8x10 frames)|8344| [ckpt]() | [log]()| [json]()|
-|[tsn_r50_video_1x1x3_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_video_1x1x3_100e_kinetics400_rgb.py) |x| ResNet50| ImageNet | x | x |8339| [ckpt]() | [log]()| [json]()|
+|[tsn_r50_dense_1x1x8_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_dense_1x1x8_100e_kinetics400_rgb.py) |8| ResNet50 | ImageNet|70.77|89.3|12.2 (8x10 frames)|8344| [ckpt]() | [log]()| [json]()|
+|[tsn_r50_video_1x1x3_100e_kinetics400_rgb](/configs/recognition/tsn/tsn_r50_video_1x1x3_100e_kinetics400_rgb.py) |8| ResNet50| ImageNet | x | x |8339| [ckpt]() | [log]()| [json]()|

-*We combine rgb and flow score with coefficients 1: 1 to get the two-stream prediction (without applying softmax).
+Here, We use [1: 1] to indicate that we combine rgb and flow score with coefficients 1: 1 to get the two-stream prediction (without applying softmax).

 ### Something-Something V1

 |config | gpus| backbone |pretrain| top1 acc| top5 acc | gpu_mem(M) | ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
-|[tsn_r50_1x1x8_50e_sthv1_rgb](/configs/recognition/tsn/tsn_r50_1x1x8_50e_sthv1_rgb.py) |8x1| ResNet50 | ImageNet|18.55|44.80| 10978 | [ckpt]() | [log]()| [json]()|
-|[tsn_r50_1x1x16_50e_sthv1_rgb](/configs/recognition/tsn/tsn_r50_1x1x16_50e_sthv1_rgb.py) |x| ResNet50| ImageNet |15.77|39.85| 5691 | [ckpt]() | [log]()| [json]()|
+|[tsn_r50_1x1x8_50e_sthv1_rgb](/configs/recognition/tsn/tsn_r50_1x1x8_50e_sthv1_rgb.py) |8| ResNet50 | ImageNet|18.55|44.80| 10978 | [ckpt]() | [log]()| [json]()|
+|[tsn_r50_1x1x16_50e_sthv1_rgb](/configs/recognition/tsn/tsn_r50_1x1x16_50e_sthv1_rgb.py) |8| ResNet50| ImageNet |15.77|39.85| 5691 | [ckpt]() | [log]()| [json]()|

 ### Something-Something V2

 |config | gpus| backbone| pretrain | top1 acc| top5 acc | gpu_mem(M) | ckpt | log| json|
 |:--|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
 |[tsn_r50_1x1x8_50e_sthv2_rgb](/configs/recognition/tsn/tsn_r50_1x1x8_50e_sthv2_rgb.py) |8x2| ResNet50| ImageNet |32.41|64.05| 10978 | [ckpt]() | [log]()| [json]()|
-|[tsn_r50_1x1x16_50e_sthv2_rgb](/configs/recognition/tsn/tsn_r50_1x1x16_50e_sthv2_rgb.py) |x| ResNet50| ImageNet |22.48|49.08|5698| [ckpt]() | [log]()| [json]()|
+|[tsn_r50_1x1x16_50e_sthv2_rgb](/configs/recognition/tsn/tsn_r50_1x1x16_50e_sthv2_rgb.py) |8| ResNet50| ImageNet |22.48|49.08|5698| [ckpt]() | [log]()| [json]()|

 ### Moments in Time


--- a/configs/recognition/tsn/tsn_r101_1x1x5_50e_mmit_rgb.py
+++ b/configs/recognition/tsn/tsn_r101_1x1x5_50e_mmit_rgb.py
@@ -112,7 +112,7 @@ optimizer = dict(
    type='SGD',
    constructor='TSMOptimizerConstructor',
    paramwise_cfg=dict(fc_lr5=True),
-    lr=0.01,
+    lr=0.01,  # this lr is used for 8 gpus
    momentum=0.9,
    weight_decay=0.0001,
 )

--- a/configs/recognition/tsn/tsn_r50_1x1x16_50e_sthv1_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x16_50e_sthv1_rgb.py
@@ -101,7 +101,9 @@ data = dict(
        filename_tmpl='{:05}.jpg',
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0005)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[20, 40])

--- a/configs/recognition/tsn/tsn_r50_1x1x16_50e_sthv2_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x16_50e_sthv2_rgb.py
@@ -89,7 +89,9 @@ data = dict(
        filename_tmpl='{:05}.jpg',
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0005)
+optimizer = dict(
+    type='SGD', lr=0.005, momentum=0.9,
+    weight_decay=0.0005)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[20, 40])

--- a/configs/recognition/tsn/tsn_r50_1x1x3_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x3_100e_kinetics400_rgb.py
@@ -98,7 +98,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_1x1x3_80e_ucf101_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x3_80e_ucf101_rgb.py
@@ -97,7 +97,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.001, momentum=0.9, weight_decay=0.0005)
+optimizer = dict(
+    type='SGD', lr=0.001, momentum=0.9,
+    weight_decay=0.0005)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[30, 60])

--- a/configs/recognition/tsn/tsn_r50_1x1x5_50e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x5_50e_kinetics400_rgb.py
@@ -99,7 +99,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.02, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.02, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[20, 40])

--- a/configs/recognition/tsn/tsn_r50_1x1x6_100e_mit_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x6_100e_mit_rgb.py
@@ -98,7 +98,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.005, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_1x1x8_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x8_100e_kinetics400_rgb.py
@@ -99,7 +99,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.015, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.015, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_1x1x8_50e_sthv1_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x8_50e_sthv1_rgb.py
@@ -99,7 +99,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.02, momentum=0.9, weight_decay=0.0005)
+optimizer = dict(
+    type='SGD', lr=0.02, momentum=0.9,
+    weight_decay=0.0005)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[20, 40])

--- a/configs/recognition/tsn/tsn_r50_1x1x8_50e_sthv2_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_1x1x8_50e_sthv2_rgb.py
@@ -85,7 +85,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.02, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.02, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[20, 40])

--- a/configs/recognition/tsn/tsn_r50_320p_1x1x3_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_320p_1x1x3_100e_kinetics400_rgb.py
@@ -93,7 +93,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_320p_1x1x3_110e_kinetics400_flow.py
+++ b/configs/recognition/tsn/tsn_r50_320p_1x1x3_110e_kinetics400_flow.py
@@ -99,7 +99,9 @@ data = dict(
        modality='Flow',
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.005, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[70, 100])

--- a/configs/recognition/tsn/tsn_r50_320p_1x1x8_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_320p_1x1x8_100e_kinetics400_rgb.py
@@ -93,7 +93,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.00375, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.00375, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_320p_1x1x8_110e_kinetics400_flow.py
+++ b/configs/recognition/tsn/tsn_r50_320p_1x1x8_110e_kinetics400_flow.py
@@ -99,7 +99,9 @@ data = dict(
        modality='Flow',
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.001875, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.001875, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[70, 100])

--- a/configs/recognition/tsn/tsn_r50_dense_1x1x5_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_dense_1x1x5_100e_kinetics400_rgb.py
@@ -100,7 +100,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.03, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=20, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_dense_1x1x8_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_dense_1x1x8_100e_kinetics400_rgb.py
@@ -99,7 +99,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.005, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_video_1x1x3_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_video_1x1x3_100e_kinetics400_rgb.py
@@ -100,7 +100,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_video_1x1x5_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_video_1x1x5_100e_kinetics400_rgb.py
@@ -100,7 +100,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_video_1x1x8_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_video_1x1x8_100e_kinetics400_rgb.py
@@ -100,7 +100,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_video_dense_1x1x5_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_video_dense_1x1x5_100e_kinetics400_rgb.py
@@ -100,7 +100,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])

--- a/configs/recognition/tsn/tsn_r50_video_dense_1x1x8_100e_kinetics400_rgb.py
+++ b/configs/recognition/tsn/tsn_r50_video_dense_1x1x8_100e_kinetics400_rgb.py
@@ -101,7 +101,9 @@ data = dict(
        data_prefix=data_root_val,
        pipeline=test_pipeline))
 # optimizer
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001)
+optimizer = dict(
+    type='SGD', lr=0.01, momentum=0.9,
+    weight_decay=0.0001)  # this lr is used for 8 gpus
 optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
 # learning policy
 lr_config = dict(policy='step', step=[40, 80])