Update some models of shufflenetv2,mobilenetv2,resnext (#2857)

d1e12efc · cuicheng01 · qingqing01 · ffbeb6f8 · d1e12efc · d1e12efc
8 changed file
--- a/PaddleCV/image_classification/README.md
+++ b/PaddleCV/image_classification/README.md
@@ -163,7 +163,7 @@ CE is only for internal testing, don't have to set it.
 ## Supported Models and Performances

 The image classification models currently supported by PaddlePaddle are listed in the table. It shows the top-1/top-5 accuracy on the ImageNet-2012 validation set of these models, the inference time of Paddle Fluid and Paddle TensorRT based on dynamic link library(test GPU model: Tesla P4). 
-As the activation function ```swish``` and ```relu6``` which separately used in ShuffleNetV2 and MobileNetV2 net are not supported by Paddle TensorRT, inference acceleration performance of them doesn't significient improve. Pretrained models can be downloaded by clicking related model names.
+As the activation function ```swish``` and ```relu6``` which separately used in ShuffleNetV2_swish and MobileNetV2 net are not supported by Paddle TensorRT, inference acceleration performance of them doesn't significient improve. Pretrained models can be downloaded by clicking related model names.

 - Note1: ResNet50_vd_v2 is the distilled version of ResNet50_vd. 
 - Note2: In addition to the image resolution feeded in InceptionV4 and Xception net is ```299x299```, others are ```224x224```.
@@ -188,13 +188,22 @@ As the activation function ```swish``` and ```relu6``` which separately used in
 |model | top-1/top-5 accuracy(CV2) | Paddle Fluid inference time(ms) | Paddle TensorRT inference time(ms) |
 |- |:-: |:-: |:-: |
 |[MobileNetV1](http://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV1_pretrained.tar) | 70.99%/89.68% | 2.609 |1.615 |
+|[MobileNetV2_x0_25](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_x0_25_pretrained.tar) | 53.21%/76.52% | 4.267 | 3.777 |
 |[MobileNetV2_x0_5](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_x0_5_pretrained.tar) | 65.03%/85.72% | 4.514 | 4.150 |
 |[MobileNetV2_x1_0](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_pretrained.tar) | 72.15%/90.65% | 4.546 | 5.278 |
+|[MobileNetV2_x1_5](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_x1_5_pretrained.tar) | 74.12%/91.67% | 5.235 | 6.909 |
+|[MobileNetV2_x2_0](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_x2_0_pretrained.tar) | 75.23%/92.58% | 6.680 | 7.658 |

 ### ShuffleNet
 |model | top-1/top-5 accuracy(CV2) | Paddle Fluid inference time(ms) | Paddle TensorRT inference time(ms) |
 |- |:-: |:-: |:-: |
-|[ShuffleNetV2](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_pretrained.tar) | 70.03%/89.17% | 6.078 | 6.282 |
+|[ShuffleNetV2_x0_25](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x0_25_pretrained.tar) | 49.90%/73.79% | 5.956 | 2.961 |
+|[ShuffleNetV2_x0_33](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x0_33_pretrained.tar) | 53.73%/77.05% | 5.896 | 2.941 |
+|[ShuffleNetV2_x0_5](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x0_5_pretrained.tar) | 60.32%/82.26% | 6.048 | 3.088 |
+|[ShuffleNetV2_x1_0](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x1_0_pretrained.tar) | 68.80%/88.45% | 6.101 | 3.616 |
+|[ShuffleNetV2_x1_5](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x1_5_pretrained.tar) | 71.63%/90.15% | 6.113 | 3.699 |
+|[ShuffleNetV2_x2_0](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x2_0_pretrained.tar) | 73.15%/91.20% | 6.430 | 4.553 |
+|[ShuffleNetV2_x1_0_swish](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_pretrained.tar) | 70.03%/89.17% | 6.078 | 6.282 |

 ### ResNet
 |model | top-1/top-5 accuracy(CV2) | Paddle Fluid inference time(ms) | Paddle TensorRT inference time(ms) |
@@ -216,8 +225,11 @@ As the activation function ```swish``` and ```relu6``` which separately used in
 |- |:-: |:-: |:-: |
 |[ResNeXt50_32x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt50_32x4d_pretrained.tar) | 77.75%/93.82% | 12.863 | 9.837 |
 |[ResNeXt50_64x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt50_64x4d_pretrained.tar) | 78.43%/94.13% | 28.162 | 18.271 |
+|[ResNeXt50_vd_64x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt50_vd_64x4d_pretrained.tar) | 80.12%/94.86% | 20.888 | 17.687 |
+|[ResNeXt101_32x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt101_32x4d_pretrained.tar) | 78.65%/94.19% | 24.154 | 21.387 |
 |[ResNeXt101_64x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt50_64x4d_pretrained.tar) | 78.43%/94.13% | 41.073 | 38.736 |
 |[ResNeXt101_vd_64x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt101_vd_64x4d_pretrained.tar) | 80.78%/95.20% | 42.277 | 40.929 |
+|[ResNeXt152_32x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt152_32x4d_pretrained.tar) | 78.98%/94.33% | 37.007 | 31.301 |

 ### SENet
 |model | top-1/top-5 accuracy(CV2) | Paddle Fluid inference time(ms) | Paddle TensorRT inference time(ms) |
@@ -270,8 +282,9 @@ Enforce failed. Expected x_dims[1] == labels_dims[1], but received x_dims[1]:100
 - 2019/04/01 **Stage3**: Update ResNet18, ResNet34, GoogLeNet, ShuffleNetV2
 - 2019/06/12 **Stage4**:Update ResNet50_vc, ResNet50_vd, ResNet101_vd, ResNet152_vd, ResNet200_vd, SE154_vd InceptionV4, ResNeXt101_64x4d, ResNeXt101_vd_64x4d
 - 2019/06/22 Update ResNet50_vd_v2
- 2019/07/02 Update MobileNetV2_x0_5, ResNeXt50_32x4d, ResNeXt50_64x4d, Xception_41, ResNet101_vd
+- 2019/07/02 **Stage5**: Update MobileNetV2_x0_5, ResNeXt50_32x4d, ResNeXt50_64x4d, Xception_41, ResNet101_vd
+- 2019/07/19 **Stage6**: Update ShuffleNetV2_x0_25, ShuffleNetV2_x0_33, ShuffleNetV2_x0_5, ShuffleNetV2_x1_0, ShuffleNetV2_x1_5, ShuffleNetV2_x2_0, MobileNetV2_x0_25, MobileNetV2_x1_5, MobileNetV2_x2_0, ResNeXt50_vd_64x4d, ResNeXt101_32x4d, ResNeXt152_32x4d

 ## Contribute

-If you can fix an issue or add a new feature, please open a PR to us. If your PR is accepted, you can get scores according to the quality and difficulty of your PR(0~5), while you got 10 scores, you can contact us for interview or recommendation letter.
\ No newline at end of file
+If you can fix an issue or add a new feature, please open a PR to us. If your PR is accepted, you can get scores according to the quality and difficulty of your PR(0~5), while you got 10 scores, you can contact us for interview or recommendation letter.
--- a/PaddleCV/image_classification/README_cn.md
+++ b/PaddleCV/image_classification/README_cn.md
@@ -151,7 +151,7 @@ python infer.py \

 ## 已发布模型及其性能
 表格中列出了在models目录下目前支持的图像分类模型，并且给出了已完成训练的模型在ImageNet-2012验证集合上的top-1/top-5精度，以及Paddle Fluid和Paddle TensorRT基于动态链接库的预测时间（测
-试GPU型号为Tesla P4）。由于Paddle TensorRT对ShuffleNetV2使用的激活函数swish，MobileNetV2使用的激活函数relu6不支持，因此预测加速不明显。可以通过点击相应模型的名称下载对应的预训练模型。
+试GPU型号为Tesla P4）。由于Paddle TensorRT对ShuffleNetV2_swish使用的激活函数swish，MobileNetV2使用的激活函数relu6不支持，因此预测加速不明显。可以通过点击相应模型的名称下载对应的预训练模型。

 - 注意
    1：ResNet50_vd_v2是ResNet50_vd蒸馏版本。
@@ -177,13 +177,22 @@ python infer.py \
 |model | top-1/top-5 accuracy(CV2) | Paddle Fluid inference time(ms) | Paddle TensorRT inference time(ms) |
 |- |:-: |:-: |:-: |
 |[MobileNetV1](http://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV1_pretrained.tar) | 70.99%/89.68% | 2.609 |1.615 |
+|[MobileNetV2_x0_25](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_x0_25_pretrained.tar) | 53.21%/76.52% | 4.267 | 3.777 |
 |[MobileNetV2_x0_5](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_x0_5_pretrained.tar) | 65.03%/85.72% | 4.514 | 4.150 |
 |[MobileNetV2_x1_0](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_pretrained.tar) | 72.15%/90.65% | 4.546 | 5.278 |
+|[MobileNetV2_x1_5](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_x1_5_pretrained.tar) | 74.12%/91.67% | 5.235 | 6.909 |
+|[MobileNetV2_x2_0](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_x2_0_pretrained.tar) | 75.23%/92.58% | 6.680 | 7.658 |

 ### ShuffleNet
 |model | top-1/top-5 accuracy(CV2) | Paddle Fluid inference time(ms) | Paddle TensorRT inference time(ms) |
 |- |:-: |:-: |:-: |
-|[ShuffleNetV2](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_pretrained.tar) | 70.03%/89.17% | 6.078 | 6.282 |
+|[ShuffleNetV2_x0_25](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x0_25_pretrained.tar) | 49.90%/73.79% | 5.956 | 2.961 |
+|[ShuffleNetV2_x0_33](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x0_33_pretrained.tar) | 53.73%/77.05% | 5.896 | 2.941 |
+|[ShuffleNetV2_x0_5](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x0_5_pretrained.tar) | 60.32%/82.26% | 6.048 | 3.088 |
+|[ShuffleNetV2_x1_0](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x1_0_pretrained.tar) | 68.80%/88.45% | 6.101 | 3.616 |
+|[ShuffleNetV2_x1_5](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x1_5_pretrained.tar) | 71.63%/90.15% | 6.113 | 3.699 |
+|[ShuffleNetV2_x2_0](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_x2_0_pretrained.tar) | 73.15%/91.20% | 6.430 | 4.553 |
+|[ShuffleNetV2_x1_0_swish](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_pretrained.tar) | 70.03%/89.17% | 6.078 | 6.282 |

 ### ResNet
 |model | top-1/top-5 accuracy(CV2) | Paddle Fluid inference time(ms) | Paddle TensorRT inference time(ms) |
@@ -205,8 +214,11 @@ python infer.py \
 |- |:-: |:-: |:-: |
 |[ResNeXt50_32x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt50_32x4d_pretrained.tar) | 77.75%/93.82% | 12.863 | 9.837 |
 |[ResNeXt50_64x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt50_64x4d_pretrained.tar) | 78.43%/94.13% | 28.162 | 18.271 |
+|[ResNeXt50_vd_64x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt50_vd_64x4d_pretrained.tar) | 80.12%/94.86% | 20.888 | 17.687 |
+|[ResNeXt101_32x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt101_32x4d_pretrained.tar) | 78.65%/94.19% | 24.154 | 21.387 |
 |[ResNeXt101_64x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt50_64x4d_pretrained.tar) | 78.43%/94.13% | 41.073 | 38.736 |
 |[ResNeXt101_vd_64x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt101_vd_64x4d_pretrained.tar) | 80.78%/95.20% | 42.277 | 40.929 |
+|[ResNeXt152_32x4d](https://paddle-imagenet-models-name.bj.bcebos.com/ResNeXt152_32x4d_pretrained.tar) | 78.98%/94.33% | 37.007 | 31.301 |

 ### SENet
 |model | top-1/top-5 accuracy(CV2) | Paddle Fluid inference time(ms) | Paddle TensorRT inference time(ms) |
@@ -252,8 +264,8 @@ python infer.py \
 - 2019/04/01 **Stage3**: 更新ResNet18，ResNet34，GoogLeNet，ShuffleNetV2
 - 2019/06/12 **Stage4**: 更新ResNet50_vc，ResNet50_vd，ResNet101_vd，ResNet152_vd，ResNet200_vd，SE154_vd InceptionV4，ResNeXt101_64x4d，ResNeXt101_vd_64x4d
 - 2019/06/22 更新ResNet50_vd_v2
- 2019/07/02 更新MobileNetV2_x0_5，ResNeXt50_32x4d，ResNeXt50_64x4d，Xception_41，ResNet101_vd
-
+- 2019/07/02 **Stage5**: 更新MobileNetV2_x0_5, ResNeXt50_32x4d, ResNeXt50_64x4d, Xception_41, ResNet101_vd
+- 2019/07/19 **Stage6**: 更新ShuffleNetV2_x0_25, ShuffleNetV2_x0_33, ShuffleNetV2_x0_5, ShuffleNetV2_x1_0, ShuffleNetV2_x1_5, ShuffleNetV2_x2_0, MobileNetV2_x0_25, MobileNetV2_x1_5, MobileNetV2_x2_0, ResNeXt50_vd_64x4d, ResNeXt101_32x4d, ResNeXt152_32x4d

 ## 如何贡献代码


--- a/PaddleCV/image_classification/models/__init__.py
+++ b/PaddleCV/image_classification/models/__init__.py
@@ -7,12 +7,13 @@ from .resnet import ResNet18, ResNet34, ResNet50, ResNet101, ResNet152
 from .resnet_vc import ResNet50_vc, ResNet101_vc, ResNet152_vc
 from .resnet_vd import ResNet50_vd, ResNet101_vd, ResNet152_vd, ResNet200_vd
 from .resnext import ResNeXt50_64x4d, ResNeXt101_64x4d, ResNeXt152_64x4d, ResNeXt50_32x4d, ResNeXt101_32x4d, ResNeXt152_32x4d
-from .resnext_vd import ResNeXt50_vd_64x4d, ResNeXt101_vd_64x4d, ResNeXt152_vd_64x4d
+from .resnext_vd import ResNeXt50_vd_64x4d, ResNeXt101_vd_64x4d, ResNeXt152_vd_64x4d, ResNeXt50_vd_32x4d, ResNeXt101_vd_32x4d, ResNeXt152_vd_32x4d
 from .resnet_dist import DistResNet
 from .inception_v4 import InceptionV4
 from .se_resnext import SE_ResNeXt50_32x4d, SE_ResNeXt101_32x4d, SE_ResNeXt152_32x4d
 from .se_resnext_vd import SE_ResNeXt50_32x4d_vd, SE_ResNeXt101_32x4d_vd, SE154_vd
 from .dpn import DPN68, DPN92, DPN98, DPN107, DPN131
-from .shufflenet_v2 import ShuffleNetV2, ShuffleNetV2_x0_5_swish, ShuffleNetV2_x1_0_swish, ShuffleNetV2_x1_5_swish, ShuffleNetV2_x2_0_swish, ShuffleNetV2_x8_0_swish
+from .shufflenet_v2_swish import ShuffleNetV2, ShuffleNetV2_x0_5_swish, ShuffleNetV2_x1_0_swish, ShuffleNetV2_x1_5_swish, ShuffleNetV2_x2_0_swish
+from .shufflenet_v2 import ShuffleNetV2_x0_25, ShuffleNetV2_x0_33, ShuffleNetV2_x0_5, ShuffleNetV2_x1_0, ShuffleNetV2_x1_5, ShuffleNetV2_x2_0
 from .fast_imagenet import FastImageNet
-from .xception import Xception_41, Xception_65, Xception_71
\ No newline at end of file
+from .xception import Xception_41, Xception_65, Xception_71
--- a/PaddleCV/image_classification/models/resnext_vd.py
+++ b/PaddleCV/image_classification/models/resnext_vd.py
@@ -3,8 +3,7 @@ import paddle.fluid as fluid
 from paddle.fluid.param_attr import ParamAttr
 import math

-__all__ = ["ResNeXt", "ResNeXt50_vd_64x4d","ResNeXt101_vd_64x4d", "ResNeXt152_vd_64x4d"]
-
+__all__ = ["ResNeXt","ResNeXt50_vd_64x4d","ResNeXt101_vd_64x4d","ResNeXt152_vd_64x4d","ResNeXt50_vd_32x4d","ResNeXt101_vd_32x4d", "ResNeXt152_vd_32x4d"]
 train_parameters = {
    "input_size": [3, 224, 224],
    "input_mean": [0.485, 0.456, 0.406],
@@ -19,13 +18,15 @@ train_parameters = {


 class ResNeXt():
-    def __init__(self, layers=50, is_3x3 = False):
+    def __init__(self, layers=50, is_3x3 = False, cardinality=64):
        self.params = train_parameters
        self.layers = layers
        self.is_3x3 = is_3x3
+        self.cardinality = cardinality
    def net(self, input, class_dim=1000):
        is_3x3 = self.is_3x3
        layers = self.layers
+        cardinality = self.cardinality
        supported_layers = [50, 101, 152]
        assert layers in supported_layers, \
            "supported layers are {} but input layer is {}".format(supported_layers, layers)
@@ -36,8 +37,8 @@ class ResNeXt():
            depth = [3, 4, 23, 3]
        elif layers == 152:
            depth = [3, 8, 36, 3]
-        num_filters = [256, 512, 1024, 2048]
-        cardinality = 64
+        num_filters1 = [256, 512, 1024, 2048]
+        num_filters2 = [128, 256, 512, 1024]
        
        if is_3x3 == False:
            conv = self.conv_bn_layer(
@@ -68,7 +69,7 @@ class ResNeXt():
                    conv_name="res"+str(block+2)+chr(97+i)
                conv = self.bottleneck_block(
                    input=conv,
-                    num_filters=num_filters[block],
+                    num_filters=num_filters1[block] if cardinality == 64 else num_filters2[block],
                    stride=2 if i == 0 and block != 0 else 1,
                    cardinality=cardinality,
                    if_first=block==0, 
@@ -177,25 +178,34 @@ class ResNeXt():
            groups=cardinality,
            name=name+"_branch2b")
        conv2 = self.conv_bn_layer(
-            input=conv1, num_filters=num_filters, filter_size=1, act=None, name=name+"_branch2c")
+            input=conv1, num_filters=num_filters if cardinality == 64 else num_filters*2, filter_size=1, act=None, name=name+"_branch2c")

-        short = self.shortcut(input, num_filters, stride, if_first=if_first, name=name + "_branch1")
+        short = self.shortcut(input, num_filters if cardinality == 64 else num_filters*2, stride, if_first=if_first, name=name + "_branch1")

        return fluid.layers.elementwise_add(x=short, y=conv2, act='relu')
    

-
-
 def ResNeXt50_vd_64x4d():
    model = ResNeXt(layers=50, is_3x3 = True)
    return model

+def ResNeXt50_vd_32x4d():
+    model = ResNeXt(layers=50, cardinality=32, is_3x3 = True)
+    return model
+
 def ResNeXt101_vd_64x4d():
    model = ResNeXt(layers=101, is_3x3 = True)
    return model

+def ResNeXt101_vd_32x4d():
+    model = ResNeXt(layers=50, cardinality=32, is_3x3 = True)
+    return model
+
 def ResNeXt152_vd_64x4d():
    model = ResNeXt(layers=152, is_3x3 = True)
    return model

+def ResNeXt152_vd_32x4d():
+    model = ResNeXt(layers=50, cardinality=32, is_3x3 = True)
+    return model

--- a/PaddleCV/image_classification/models/shufflenet_v2.py
+++ b/PaddleCV/image_classification/models/shufflenet_v2.py
@@ -22,8 +22,7 @@ import paddle.fluid as fluid
 from paddle.fluid.initializer import MSRA
 from paddle.fluid.param_attr import ParamAttr

-__all__ = ['ShuffleNetV2', 'ShuffleNetV2_x0_5_swish', 'ShuffleNetV2_x1_0_swish', 'ShuffleNetV2_x1_5_swish', 
-           'ShuffleNetV2_x2_0_swish', 'ShuffleNetV2_x8_0_swish']
+__all__ = ['ShuffleNetV2_x0_25', 'ShuffleNetV2_x0_33', 'ShuffleNetV2_x0_5', 'ShuffleNetV2_x1_0', 'ShuffleNetV2_x1_5', 'ShuffleNetV2_x2_0']

 train_parameters = {
    "input_size": [3, 224, 224],
@@ -47,7 +46,11 @@ class ShuffleNetV2():
        scale = self.scale 
        stage_repeats = [4, 8, 4]
        
-        if scale == 0.5:
+	if scale == 0.25:
+            stage_out_channels = [-1, 24,  24,  48, 96, 512]
+        elif scale == 0.33:
+            stage_out_channels = [-1, 24,  32,  64, 128, 512]
+        elif scale == 0.5:
            stage_out_channels = [-1, 24,  48,  96, 192, 1024]
        elif scale == 1.0:
            stage_out_channels = [-1, 24, 116, 232, 464, 1024]
@@ -55,8 +58,6 @@ class ShuffleNetV2():
            stage_out_channels = [-1, 24, 176, 352, 704, 1024]
        elif scale == 2.0:
            stage_out_channels = [-1, 24, 224, 488, 976, 2048]
-        elif scale == 8.0:
-            stage_out_channels = [-1, 48, 896, 1952, 3904, 8192]
        else:
            raise ValueError(
                """{} groups is not supported for
@@ -116,7 +117,7 @@ class ShuffleNetV2():
        out = int((input.shape[2] - 1)/float(stride) + 1)
        bn_name = name + '_bn'
        if if_act:
-            return fluid.layers.batch_norm(input=conv, act='swish',
+            return fluid.layers.batch_norm(input=conv, act='relu',
                                           param_attr = ParamAttr(name=bn_name+"_scale"),
                                           bias_attr=ParamAttr(name=bn_name+"_offset"),
                                           moving_mean_name=bn_name + '_mean',
@@ -246,25 +247,27 @@ class ShuffleNetV2():
            out = fluid.layers.concat([conv_linear_1, conv_linear_2], axis=1)
            
        return self.channel_shuffle(out, 2)
-    
-def ShuffleNetV2_x0_5_swish():
+
+def ShuffleNetV2_x0_25():
+    model = ShuffleNetV2(scale=0.25)
+    return model
+
+def ShuffleNetV2_x0_33():
+    model = ShuffleNetV2(scale=0.33)
+    return model
+ 
+def ShuffleNetV2_x0_5():
    model = ShuffleNetV2(scale=0.5)
    return model

-def ShuffleNetV2_x1_0_swish():
+def ShuffleNetV2_x1_0():
    model = ShuffleNetV2(scale=1.0)
    return model

-def ShuffleNetV2_x1_5_swish():
+def ShuffleNetV2_x1_5():
    model = ShuffleNetV2(scale=1.5)
    return model

-def ShuffleNetV2_x2_0_swish():
+def ShuffleNetV2_x2_0():
    model = ShuffleNetV2(scale=2.0)
    return model
-
-def ShuffleNetV2_x8_0_swish():
-    model = ShuffleNetV2(scale=8.0)
-    return model
-        
-
--- a/PaddleCV/image_classification/models/shufflenet_v2_swish.py
+++ b/PaddleCV/image_classification/models/shufflenet_v2_swish.py
+#copyright (c) 2019 PaddlePaddle Authors. All Rights Reserve.
+#
+#Licensed under the Apache License, Version 2.0 (the "License");
+#you may not use this file except in compliance with the License.
+#You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+#Unless required by applicable law or agreed to in writing, software
+#distributed under the License is distributed on an "AS IS" BASIS,
+#WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+#See the License for the specific language governing permissions and
+#limitations under the License.
+
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import print_function
+
+import math
+
+import paddle.fluid as fluid
+from paddle.fluid.initializer import MSRA
+from paddle.fluid.param_attr import ParamAttr
+
+__all__ = ['ShuffleNetV2_x0_5_swish', 'ShuffleNetV2_x1_0_swish', 'ShuffleNetV2_x1_5_swish', 'ShuffleNetV2_x2_0_swish']
+
+train_parameters = {
+    "input_size": [3, 224, 224],
+    "input_mean": [0.485, 0.456, 0.406],
+    "input_std": [0.229, 0.224, 0.225],
+    "learning_strategy": {
+        "name": "piecewise_decay",
+        "batch_size": 256,
+        "epochs": [30, 60, 90],
+        "steps": [0.1, 0.01, 0.001, 0.0001]
+    }
+}
+
+
+class ShuffleNetV2():
+    def __init__(self, scale=1.0):
+        self.params = train_parameters
+        self.scale = scale
+
+    def net(self, input, class_dim=1000):
+        scale = self.scale 
+        stage_repeats = [4, 8, 4]
+        
+        if scale == 0.5:
+            stage_out_channels = [-1, 24,  48,  96, 192, 1024]
+        elif scale == 1.0:
+            stage_out_channels = [-1, 24, 116, 232, 464, 1024]
+        elif scale == 1.5:
+            stage_out_channels = [-1, 24, 176, 352, 704, 1024]
+        elif scale == 2.0:
+            stage_out_channels = [-1, 24, 224, 488, 976, 2048]
+        else:
+            raise ValueError(
+                """{} groups is not supported for
+                       1x1 Grouped Convolutions""".format(num_groups))
+
+        #conv1
+        
+        input_channel = stage_out_channels[1]
+        conv1 = self.conv_bn_layer(input=input, filter_size=3, num_filters=input_channel, padding=1, stride=2,name='stage1_conv')    
+        pool1 = fluid.layers.pool2d(input=conv1, pool_size=3, pool_stride=2, pool_padding=1, pool_type='max')
+        conv = pool1
+        # bottleneck sequences
+        for idxstage in range(len(stage_repeats)):
+            numrepeat = stage_repeats[idxstage]
+            output_channel = stage_out_channels[idxstage+2]
+            for i in range(numrepeat):
+                if i == 0:
+                    conv = self.inverted_residual_unit(input=conv, num_filters=output_channel, stride=2, 
+                                                       benchmodel=2,name=str(idxstage+2)+'_'+str(i+1))
+                else:
+                    conv = self.inverted_residual_unit(input=conv, num_filters=output_channel, stride=1, 
+                                                       benchmodel=1,name=str(idxstage+2)+'_'+str(i+1))
+                
+        conv_last = self.conv_bn_layer(input=conv, filter_size=1, num_filters=stage_out_channels[-1], 
+                                       padding=0, stride=1, name='conv5')
+        pool_last = fluid.layers.pool2d(input=conv_last, pool_size=7, pool_stride=1, pool_padding=0, pool_type='avg')
+
+
+        output = fluid.layers.fc(input=pool_last,
+                                 size=class_dim,
+                                 param_attr=ParamAttr(initializer=MSRA(),name='fc6_weights'),
+                                 bias_attr=ParamAttr(name='fc6_offset'))
+        return output
+
+    
+    def conv_bn_layer(self,
+                  input,
+                  filter_size,
+                  num_filters,
+                  stride,
+                  padding,
+                  num_groups=1,
+                  use_cudnn=True,
+                  if_act=True,
+                  name=None):
+        conv = fluid.layers.conv2d(
+            input=input,
+            num_filters=num_filters,
+            filter_size=filter_size,
+            stride=stride,
+            padding=padding,
+            groups=num_groups,
+            act=None,
+            use_cudnn=use_cudnn,
+            param_attr=ParamAttr(initializer=MSRA(),name=name+'_weights'),
+            bias_attr=False)
+        out = int((input.shape[2] - 1)/float(stride) + 1)
+        bn_name = name + '_bn'
+        if if_act:
+            return fluid.layers.batch_norm(input=conv, act='swish',
+                                           param_attr = ParamAttr(name=bn_name+"_scale"),
+                                           bias_attr=ParamAttr(name=bn_name+"_offset"),
+                                           moving_mean_name=bn_name + '_mean',
+                                           moving_variance_name=bn_name + '_variance')
+        else:
+            return fluid.layers.batch_norm(input=conv,
+                                           param_attr = ParamAttr(name=bn_name+"_scale"),
+                                           bias_attr=ParamAttr(name=bn_name+"_offset"),
+                                           moving_mean_name=bn_name + '_mean',
+                                           moving_variance_name=bn_name + '_variance')
+
+      
+    def channel_shuffle(self, x, groups):
+        batchsize, num_channels, height, width = x.shape[0], x.shape[1], x.shape[2], x.shape[3]
+        channels_per_group = num_channels // groups
+    
+        # reshape
+        x = fluid.layers.reshape(x=x, shape=[batchsize, groups, channels_per_group, height, width])
+
+        x = fluid.layers.transpose(x=x, perm=[0,2,1,3,4])
+
+        # flatten
+        x = fluid.layers.reshape(x=x, shape=[batchsize, num_channels, height, width])
+
+        return x
+
+    
+    def inverted_residual_unit(self, input, num_filters, stride, benchmodel, name=None):
+        assert stride in [1, 2], \
+            "supported stride are {} but your stride is {}".format([1,2], stride)
+            
+        oup_inc = num_filters//2
+        inp = input.shape[1]
+        
+        if benchmodel == 1:
+            x1, x2 = fluid.layers.split(
+                input, num_or_sections=[input.shape[1]//2, input.shape[1]//2], dim=1)            
+            
+            conv_pw = self.conv_bn_layer(
+                input=x2, 
+                num_filters=oup_inc, 
+                filter_size=1, 
+                stride=1,
+                padding=0,
+                num_groups=1,
+                if_act=True,
+                name='stage_'+name+'_conv1')
+
+            conv_dw = self.conv_bn_layer(
+                input=conv_pw, 
+                num_filters=oup_inc, 
+                filter_size=3, 
+                stride=stride, 
+                padding=1,
+                num_groups=oup_inc, 
+                if_act=False,
+                use_cudnn=False,
+                name='stage_'+name+'_conv2')
+
+            conv_linear = self.conv_bn_layer(
+                input=conv_dw, 
+                num_filters=oup_inc, 
+                filter_size=1, 
+                stride=1, 
+                padding=0,
+                num_groups=1, 
+                if_act=True,
+                name='stage_'+name+'_conv3')
+            
+            out = fluid.layers.concat([x1, conv_linear], axis=1)
+
+            
+        else:
+            #branch1
+            conv_dw_1 = self.conv_bn_layer(
+                input=input, 
+                num_filters=inp, 
+                filter_size=3, 
+                stride=stride,
+                padding=1,
+                num_groups=inp,
+                if_act=False,
+                use_cudnn=False,
+                name='stage_'+name+'_conv4')
+            
+            conv_linear_1 = self.conv_bn_layer(
+                input=conv_dw_1, 
+                num_filters=oup_inc, 
+                filter_size=1, 
+                stride=1,
+                padding=0,
+                num_groups=1,
+                if_act=True,
+                name='stage_'+name+'_conv5')
+            
+            #branch2
+            conv_pw_2 = self.conv_bn_layer(
+                input=input, 
+                num_filters=oup_inc, 
+                filter_size=1, 
+                stride=1,
+                padding=0,
+                num_groups=1,
+                if_act=True,
+                name='stage_'+name+'_conv1')
+
+            conv_dw_2 = self.conv_bn_layer(
+                input=conv_pw_2, 
+                num_filters=oup_inc, 
+                filter_size=3, 
+                stride=stride, 
+                padding=1,
+                num_groups=oup_inc, 
+                if_act=False,
+                use_cudnn=False,
+                name='stage_'+name+'_conv2')
+
+            conv_linear_2 = self.conv_bn_layer(
+                input=conv_dw_2, 
+                num_filters=oup_inc, 
+                filter_size=1, 
+                stride=1, 
+                padding=0,
+                num_groups=1, 
+                if_act=True,
+                name='stage_'+name+'_conv3')
+            out = fluid.layers.concat([conv_linear_1, conv_linear_2], axis=1)
+            
+        return self.channel_shuffle(out, 2)
+    
+def ShuffleNetV2_x0_5_swish():
+    model = ShuffleNetV2(scale=0.5)
+    return model
+
+def ShuffleNetV2_x1_0_swish():
+    model = ShuffleNetV2(scale=1.0)
+    return model
+
+def ShuffleNetV2_x1_5_swish():
+    model = ShuffleNetV2(scale=1.5)
+    return model
+
+def ShuffleNetV2_x2_0_swish():
+    model = ShuffleNetV2(scale=2.0)
+    return model
--- a/PaddleCV/image_classification/models/xception.py
+++ b/PaddleCV/image_classification/models/xception.py
@@ -156,7 +156,6 @@ class Xception(object):
        stdv = 1.0 / math.sqrt(pool.shape[1] * 1.0)
        out = fluid.layers.fc(input=pool,
                              size=class_dim,
-                              act='softmax',
                              param_attr=fluid.param_attr.ParamAttr(
                                  name='fc_weights',
                                  initializer=fluid.initializer.Uniform(-stdv, stdv)),

--- a/PaddleCV/image_classification/run.sh
+++ b/PaddleCV/image_classification/run.sh