Move video configs

11b986de · lixuanyi · lizz · 0a6c3b85 · 11b986de · 11b986de
6 changed file
--- a/config/i3d_video_32x2x1_r50_3d_kinetics400_100e.py
+++ b/config/i3d_video_32x2x1_r50_3d_kinetics400_100e.py
@@ -121,7 +121,7 @@ log_config = dict(
 # runtime settings
 dist_params = dict(backend='nccl')
 log_level = 'INFO'
-work_dir = './work_dirs/i3d_video_32x2x1_r50_3d_kinetics400_100e/'
+work_dir = './work_dirs/i3d_r50_video_3d_32x2x1_100e_kinetics400_rgb/'
 load_from = None
 resume_from = None
 workflow = [('train', 1)]
--- a/config/r2plus1d_video_8x8x1_r34_3d_kinetics400_180e.py
+++ b/config/r2plus1d_video_8x8x1_r34_3d_kinetics400_180e.py
@@ -130,7 +130,7 @@ log_config = dict(
 # runtime settings
 dist_params = dict(backend='nccl')
 log_level = 'INFO'
-work_dir = './work_dirs/r2plus1d_video_8x8x1_r34_3d_kinetics400_180e/'
+work_dir = './work_dirs/r2plus1d_r34_video_3d_8x8x1_180e_kinetics400_rgb/'
 load_from = None
 resume_from = None
 workflow = [('train', 1)]

--- a/configs/recognition/slowfast/slowfast_r50_video_3d_4x16x1_256e_kinetics400_rgb.py
+++ b/configs/recognition/slowfast/slowfast_r50_video_3d_4x16x1_256e_kinetics400_rgb.py
+model = dict(
+    type='Recognizer3D',
+    backbone=dict(
+        type='ResNet3dSlowFast',
+        pretrained=None,
+        resample_rate=8,  # tau
+        speed_ratio=8,  # alpha
+        channel_ratio=8,  # beta_inv
+        slow_pathway=dict(
+            type='resnet3d',
+            depth=50,
+            pretrained=None,
+            lateral=True,
+            conv1_kernel=(1, 7, 7),
+            dilations=(1, 1, 1, 1),
+            conv1_stride_t=1,
+            pool1_stride_t=1,
+            inflate=(0, 0, 1, 1)),
+        fast_pathway=dict(
+            type='resnet3d',
+            depth=50,
+            pretrained=None,
+            lateral=False,
+            base_channels=8,
+            conv1_kernel=(5, 7, 7),
+            conv1_stride_t=1,
+            pool1_stride_t=1)),
+    cls_head=dict(
+        in_channels=2304,  # 2048+256
+        num_classes=400,
+        type='SlowFastHead',
+        spatial_type='avg',
+        dropout_ratio=0.5))
+train_cfg = None
+test_cfg = dict(average_clips=None)
+dataset_type = 'VideoDataset'
+data_root = 's3://lizz.ssd/datasets/kinetics400_256/'
+data_root_val = 's3://lizz.ssd/datasets/kinetics400_256/'
+ann_file_train = 'data/kinetics400/k400_train.txt'
+ann_file_val = 'data/kinetics400/k400_val.txt'
+ann_file_test = 'data/kinetics400/k400_val.txt'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_bgr=False)
+mc_cfg = dict(
+    server_list_cfg='/mnt/lustre/share/memcached_client/server_list.conf',
+    client_cfg='/mnt/lustre/share/memcached_client/client.conf',
+    sys_path='/mnt/lustre/share/pymc/py3')
+train_pipeline = [
+    dict(type='DecordInit', io_backend='petrel', num_threads=1),
+    dict(type='SampleFrames', clip_len=32, frame_interval=2, num_clips=1),
+    dict(type='DecordDecode'),
+    dict(type='Resize', scale=(-1, 256)),
+    dict(type='RandomResizedCrop'),
+    dict(type='Resize', scale=(224, 224), keep_ratio=False),
+    dict(type='Flip', flip_ratio=0.5),
+    dict(type='Normalize', **img_norm_cfg),
+    dict(type='FormatShape', input_format='NCTHW'),
+    dict(type='Collect', keys=['imgs', 'label'], meta_keys=[]),
+    dict(type='ToTensor', keys=['imgs', 'label'])
+]
+val_pipeline = [
+    dict(type='DecordInit', io_backend='petrel', num_threads=1),
+    dict(
+        type='SampleFrames',
+        clip_len=32,
+        frame_interval=2,
+        num_clips=1,
+        test_mode=True),
+    dict(type='DecordDecode'),
+    dict(type='Resize', scale=(-1, 256)),
+    dict(type='CenterCrop', crop_size=224),
+    dict(type='Flip', flip_ratio=0),
+    dict(type='Normalize', **img_norm_cfg),
+    dict(type='FormatShape', input_format='NCTHW'),
+    dict(type='Collect', keys=['imgs', 'label'], meta_keys=[]),
+    dict(type='ToTensor', keys=['imgs'])
+]
+test_pipeline = [
+    dict(type='DecordInit', io_backend='petrel', num_threads=1),
+    dict(
+        type='SampleFrames',
+        clip_len=32,
+        frame_interval=2,
+        num_clips=10,
+        test_mode=True),
+    dict(type='DecordDecode'),
+    dict(type='Resize', scale=(-1, 256)),
+    dict(type='ThreeCrop', crop_size=256),
+    dict(type='Flip', flip_ratio=0),
+    dict(type='Normalize', **img_norm_cfg),
+    dict(type='FormatShape', input_format='NCTHW'),
+    dict(type='Collect', keys=['imgs', 'label'], meta_keys=[]),
+    dict(type='ToTensor', keys=['imgs'])
+]
+data = dict(
+    videos_per_gpu=8,
+    workers_per_gpu=4,
+    train=dict(
+        type=dataset_type,
+        ann_file=ann_file_train,
+        data_prefix=data_root,
+        pipeline=train_pipeline),
+    val=dict(
+        type=dataset_type,
+        ann_file=ann_file_val,
+        data_prefix=data_root_val,
+        pipeline=val_pipeline),
+    test=dict(
+        type=dataset_type,
+        ann_file=ann_file_test,
+        data_prefix=data_root_val,
+        pipeline=test_pipeline))
+# optimizer
+optimizer = dict(type='SGD', lr=0.1, momentum=0.9, weight_decay=0.0001)
+optimizer_config = dict(grad_clip=dict(max_norm=40, norm_type=2))
+# learning policy
+lr_config = dict(
+    policy='CosineAnealing',
+    min_lr=0,
+    warmup='linear',
+    warmup_ratio=0.01,
+    warmup_byepoch=True,
+    warmup_iters=34)
+total_epochs = 256
+checkpoint_config = dict(interval=4)
+workflow = [('train', 1)]
+evaluation = dict(
+    interval=5, metrics=['top_k_accuracy', 'mean_class_accuracy'], topk=(1, 5))
+log_config = dict(
+    interval=20,
+    hooks=[
+        dict(type='TextLoggerHook'),
+        #    dict(type='TensorboardLoggerHook'),
+    ])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+work_dir = './work_dirs/slowfast_r50_video_3d_4x16x1_256e_kinetics400_rgb'
+load_from = None
+resume_from = None
+find_unused_parameters = False
--- a/config/tin_video_1x1x8_r50_2d_kinetics400_35e.py
+++ b/config/tin_video_1x1x8_r50_2d_kinetics400_35e.py
@@ -125,7 +125,7 @@ log_config = dict(
 # runtime settings
 dist_params = dict(backend='nccl')
 log_level = 'INFO'
-work_dir = './work_dirs/tin_video_1x1x8_r50_2d_kinetics400_35e/'
+work_dir = './work_dirs/tin_r50_video_2d_1x1x8_35e_kinetics400_rgb/'
 load_from = None
 resume_from = None
 workflow = [('train', 1)]
--- a/config/tsm_video_1x1x8_r50_2d_kinetics400_100e.py
+++ b/config/tsm_video_1x1x8_r50_2d_kinetics400_100e.py
@@ -127,7 +127,7 @@ log_config = dict(
 # runtime settings
 dist_params = dict(backend='nccl')
 log_level = 'INFO'
-work_dir = './work_dirs/tsm_video_1x1x8_r50_2d_kinetics400_100e/'
+work_dir = './work_dirs/tsm_r50_video_2d_1x1x8_100e_kinetics400_rgb/'
 load_from = None
 resume_from = None
 workflow = [('train', 1)]
--- a/config/tsn_video_1x1x3_r50_2d_kinetics400_100e.py
+++ b/config/tsn_video_1x1x3_r50_2d_kinetics400_100e.py
@@ -117,7 +117,7 @@ log_config = dict(
 # runtime settings
 dist_params = dict(backend='nccl')
 log_level = 'INFO'
-work_dir = './work_dirs/tsn_video_1x1x3_r50_2d_kinetics400_100e/'
+work_dir = './work_dirs/tsn_r50_video_2d_1x1x3_100e_kinetics400_rgb/'
 load_from = None
 resume_from = None
 workflow = [('train', 1)]