From 31cbd12fc18eedde40a3d5d04d4a4deed8df5a85 Mon Sep 17 00:00:00 2001
From: ceci3 <ceci3@users.noreply.github.com>
Date: Tue, 2 Feb 2021 12:51:09 +0800
Subject: [PATCH] add ofa docs (#636) (#643)

---
 demo/ofa/bert/README.md                       | 24 +++++
 demo/ofa/bert/export_model.py                 |  8 ++
 demo/ofa/bert/run_glue_ofa.py                 |  8 +-
 docs/zh_cn/api_cn/convert_supernet_api.rst    |  2 +-
 docs/zh_cn/api_cn/nas_api.rst                 | 37 +++++---
 docs/zh_cn/api_cn/ofa_api.rst                 | 22 ++---
 docs/zh_cn/api_cn/ofa_layer_api.rst           | 41 ++++----
 .../ernie_slim_ofa_tutorial.md                |  0
 docs/zh_cn/tutorials/nas/nas_ofa.md           | 93 +++++++++++++++++++
 docs/zh_cn/tutorials/nas/nas_overview.md      | 20 ++++
 .../paddlenlp_slim_ofa_tutorial.md            |  0
 paddleslim/nas/ofa/layers.py                  | 31 ++++---
 paddleslim/nas/ofa/layers_old.py              |  4 +-
 13 files changed, 222 insertions(+), 68 deletions(-)
 rename docs/zh_cn/tutorials/{static => nas}/ernie_slim_ofa_tutorial.md (100%)
 create mode 100644 docs/zh_cn/tutorials/nas/nas_ofa.md
 create mode 100644 docs/zh_cn/tutorials/nas/nas_overview.md
 rename docs/zh_cn/tutorials/{static => nas}/paddlenlp_slim_ofa_tutorial.md (100%)

diff --git a/demo/ofa/bert/README.md b/demo/ofa/bert/README.md
index 7ac94833..83054a4c 100644
--- a/demo/ofa/bert/README.md
+++ b/demo/ofa/bert/README.md
@@ -222,3 +222,27 @@ python -u ./run_glue_ofa.py --model_type bert \
                          --n_gpu 1 \
                          --width_mult_list 1.0 0.8333333333333334 0.6666666666666666 0.5
 ```
+
+# å¯¼å‡ºåæ¨¡åž‹
+æ ¹æ®ä¼ å…¥çš„configå¯¼å‡ºç›¸åº”çš„åæ¨¡åž‹å¹¶è½¬ä¸ºé™æ€å›¾æ¨¡åž‹ã€‚
+
+## å¯åŠ¨å‘½ä»¤
+
+```shell
+python3.7 -u ./export_model.py --model_type bert \
+                             --model_name_or_path ${PATH_OF_QQP_MODEL_AFTER_OFA} \
+                             --max_seq_length 128     \
+			     --sub_model_output_dir ./tmp/$TASK_NAME/dynamic_model \
+                             --static_sub_model ./tmp/$TASK_NAME/static_model \
+			     --n_gpu 1 \
+			     --width_mult  0.6666666666666666
+```
+
+å…¶ä¸å‚æ•°é‡Šä¹‰å¦‚ä¸‹ï¼š
+- `model_type` æŒ‡ç¤ºäº†æ¨¡åž‹ç±»åž‹ï¼Œå½“å‰ä»…æ”¯æŒBERTæ¨¡åž‹ã€‚
+- `model_name_or_path` æŒ‡ç¤ºäº†æŸç§ç‰¹å®šé…ç½®çš„ç»è¿‡OFAè®ç»ƒåŽä¿å˜çš„æ¨¡åž‹ï¼Œå¯¹åº”æœ‰å…¶é¢„è®ç»ƒæ¨¡åž‹å’Œé¢„è®ç»ƒæ—¶ä½¿ç”¨çš„tokenizerã€‚è‹¥æ¨¡åž‹ç›¸å…³å†…å®¹ä¿å˜åœ¨æœ¬åœ°ï¼Œè¿™é‡Œä¹Ÿå¯ä»¥æä¾›ç›¸åº”ç›®å½•åœ°å€ã€‚
+- `max_seq_length` è¡¨ç¤ºæœ€å¤§å¥åé•¿åº¦ï¼Œè¶…è¿‡è¯¥é•¿åº¦å°†è¢«æˆªæ–ã€‚é»˜è®¤ï¼š128.
+- `sub_model_output_dir` æŒ‡ç¤ºäº†å¯¼å‡ºåæ¨¡åž‹åŠ¨æ€å›¾å‚æ•°çš„ç›®å½•ã€‚
+- `static_sub_model` æŒ‡ç¤ºäº†å¯¼å‡ºåæ¨¡åž‹é™æ€å›¾æ¨¡åž‹åŠå‚æ•°çš„ç›®å½•ï¼Œè®¾ç½®ä¸ºNoneï¼Œåˆ™è¡¨ç¤ºä¸å¯¼å‡ºé™æ€å›¾æ¨¡åž‹ã€‚é»˜è®¤ï¼šNoneã€‚
+- `n_gpu` è¡¨ç¤ºä½¿ç”¨çš„ GPU å¡æ•°ã€‚è‹¥å¸Œæœ›ä½¿ç”¨å¤šå¡è®ç»ƒï¼Œå°†å…¶è®¾ç½®ä¸ºæŒ‡å®šæ•°ç›®å³å¯ï¼›è‹¥ä¸º0ï¼Œåˆ™ä½¿ç”¨CPUã€‚é»˜è®¤ï¼š1.
+- `width_mult` è¡¨ç¤ºå¯¼å‡ºåæ¨¡åž‹çš„å®½åº¦ã€‚é»˜è®¤ï¼š1.0.
diff --git a/demo/ofa/bert/export_model.py b/demo/ofa/bert/export_model.py
index 9763ef14..0a23fa9e 100644
--- a/demo/ofa/bert/export_model.py
+++ b/demo/ofa/bert/export_model.py
@@ -60,6 +60,7 @@ def parse_args():
         "--sub_model_output_dir",
         default=None,
         type=str,
+        required=True,
         help="The output directory where the sub model predictions and checkpoints will be written.",
     )
     parser.add_argument(
@@ -131,6 +132,13 @@ def do_train(args):
         if isinstance(sublayer, paddle.nn.MultiHeadAttention):
             sublayer.num_heads = int(args.width_mult * sublayer.num_heads)
 
+    output_dir = os.path.join(args.sub_model_output_dir,
+                              "model_width_%.5f" % args.width_mult)
+    if not os.path.exists(output_dir):
+        os.makedirs(output_dir)
+    model_to_save = origin_model
+    model_to_save.save_pretrained(output_dir)
+
     if args.static_sub_model != None:
         export_static_model(origin_model, args.static_sub_model,
                             args.max_seq_length)
diff --git a/demo/ofa/bert/run_glue_ofa.py b/demo/ofa/bert/run_glue_ofa.py
index bc581f2f..9553bfeb 100644
--- a/demo/ofa/bert/run_glue_ofa.py
+++ b/demo/ofa/bert/run_glue_ofa.py
@@ -179,11 +179,9 @@ def evaluate(model, criterion, metric, data_loader, epoch, step,
             correct = metric.compute(logits, labels)
             metric.update(correct)
         results = metric.accumulate()
-        print(
-            "epoch: %d, batch: %d, width_mult: %s, eval loss: %f, %s: %s\n" %
-            (epoch, step, 'teacher' if width_mult == 100 else str(width_mult),
-             loss.numpy(), metric.name(), results),
-            end='')
+        print("epoch: %d, batch: %d, width_mult: %s, eval loss: %f, %s: %s\n" %
+              (epoch, step, 'teacher' if width_mult == 100 else str(width_mult),
+               loss.numpy(), metric.name(), results))
         model.train()
 
 
diff --git a/docs/zh_cn/api_cn/convert_supernet_api.rst b/docs/zh_cn/api_cn/convert_supernet_api.rst
index ba730dee..e596f5d8 100644
--- a/docs/zh_cn/api_cn/convert_supernet_api.rst
+++ b/docs/zh_cn/api_cn/convert_supernet_api.rst
@@ -90,7 +90,7 @@ PaddleSlimæä¾›äº†ä¸‰ç§æ–¹å¼æž„é€ è¶…ç½‘ç»œï¼Œä¸‹é¢åˆ†åˆ«ä»‹ç»è¿™ä¸‰ç§æ–¹
 
 æ–¹å¼ä¸‰
 ------------------
-ç›´æŽ¥è°ƒç”¨åŠ¨æ€OPç»„ç½‘ï¼Œç»„ç½‘æ–¹å¼å’Œæ™®é€šæ¨¡åž‹ç›¸åŒã€‚PaddleSlimæ”¯æŒçš„åŠ¨æ€OPè¯·å‚è€ƒ `åŠ¨æ€OP <>`_ ã€‚è¿™ç§æ–¹å¼çš„ä¼˜ç‚¹æ˜¯ç»„ç½‘æ›´è‡ªç”±ï¼Œç¼ºç‚¹æ˜¯ç”¨æ³•æ›´å¤æ‚ã€‚
+ç›´æŽ¥è°ƒç”¨åŠ¨æ€OPç»„ç½‘ï¼Œç»„ç½‘æ–¹å¼å’Œæ™®é€šæ¨¡åž‹ç›¸åŒã€‚PaddleSlimæ”¯æŒçš„åŠ¨æ€OPè¯·å‚è€ƒ `åŠ¨æ€OP <./ofa_layer_api.rst>`_ ã€‚è¿™ç§æ–¹å¼çš„ä¼˜ç‚¹æ˜¯ç»„ç½‘æ›´è‡ªç”±ï¼Œç¼ºç‚¹æ˜¯ç”¨æ³•æ›´å¤æ‚ã€‚
 
 .. note::
   - paddleslim.nas.ofa.layers æ–‡ä»¶ä¸çš„åŠ¨æ€OPæ˜¯åŸºäºŽPaddle 2.0betaåŠå…¶ä¹‹åŽçš„ç‰ˆæœ¬å®žçŽ°çš„ã€‚paddleslim.nas.ofa.layers_oldæ–‡ä»¶ä¸çš„åŠ¨æ€OPæ˜¯åŸºäºŽPaddle 2.0betaä¹‹å‰çš„ç‰ˆæœ¬å®žçŽ°çš„ã€‚
diff --git a/docs/zh_cn/api_cn/nas_api.rst b/docs/zh_cn/api_cn/nas_api.rst
index 9cb0938f..f970380c 100644
--- a/docs/zh_cn/api_cn/nas_api.rst
+++ b/docs/zh_cn/api_cn/nas_api.rst
@@ -45,8 +45,10 @@ SANASï¼ˆSimulated Annealing Neural Architecture Searchï¼‰æ˜¯åŸºäºŽæ¨¡æ‹Ÿé€€ç«
 
 .. code-block:: python
 
+   import paddle
    from paddleslim.nas import SANAS
    config = [('MobileNetV2Space')]
+   paddle.enable_static()
    sanas = SANAS(configs=config)
 
 .. note::
@@ -82,11 +84,12 @@ SANASï¼ˆSimulated Annealing Neural Architecture Searchï¼‰æ˜¯åŸºäºŽæ¨¡æ‹Ÿé€€ç«
 
    .. code-block:: python
 
-      import paddle.fluid as fluid
+      import paddle
       from paddleslim.nas import SANAS
       config = [('MobileNetV2Space')]
+      paddle.enable_static()
       sanas = SANAS(configs=config)
-      input = fluid.data(name='input', shape=[None, 3, 32, 32], dtype='float32')
+      input = paddle.static.data(name='input', shape=[None, 3, 32, 32], dtype='float32')
       archs = sanas.next_archs()
       for arch in archs:
           output = arch(input)
@@ -108,9 +111,10 @@ SANASï¼ˆSimulated Annealing Neural Architecture Searchï¼‰æ˜¯åŸºäºŽæ¨¡æ‹Ÿé€€ç«
 
    .. code-block:: python
 
-      import paddle.fluid as fluid
+      import paddle
       from paddleslim.nas import SANAS
       config = [('MobileNetV2Space')]
+      paddle.enable_static()
       sanas = SANAS(configs=config)
       archs = sanas.next_archs()
       
@@ -134,11 +138,12 @@ SANASï¼ˆSimulated Annealing Neural Architecture Searchï¼‰æ˜¯åŸºäºŽæ¨¡æ‹Ÿé€€ç«
 
    .. code-block:: python
 
-      import paddle.fluid as fluid
+      import paddle
       from paddleslim.nas import SANAS
       config = [('MobileNetV2Space')]
+      paddle.enable_static()
       sanas = SANAS(configs=config)
-      input = fluid.data(name='input', shape=[None, 3, 32, 32], dtype='float32')
+      input = paddle.static.data(name='input', shape=[None, 3, 32, 32], dtype='float32')
       tokens = ([0] * 25)
       archs = sanas.tokens2arch(tokens)[0]
       print(archs(input))
@@ -154,9 +159,10 @@ SANASï¼ˆSimulated Annealing Neural Architecture Searchï¼‰æ˜¯åŸºäºŽæ¨¡æ‹Ÿé€€ç«
 
    .. code-block:: python
 
-      import paddle.fluid as fluid
+      import paddle
       from paddleslim.nas import SANAS
       config = [('MobileNetV2Space')]
+      paddle.enable_static()
       sanas = SANAS(configs=config)
       print(sanas.current_info())
 
@@ -222,8 +228,11 @@ RLNAS (Reinforcement Learning Neural Architecture Searchï¼‰æ˜¯åŸºäºŽå¼ºåŒ–å¦ä¹ 
 
 .. code-block:: python
 
+   import paddle
    from paddleslim.nas import RLNAS
    config = [('MobileNetV2Space')]
+
+   paddle.enable_static()
    rlnas = RLNAS(key='lstm', configs=config)
 
 
@@ -242,11 +251,12 @@ RLNAS (Reinforcement Learning Neural Architecture Searchï¼‰æ˜¯åŸºäºŽå¼ºåŒ–å¦ä¹ 
 
 .. code-block:: python
 
-  import paddle.fluid as fluid
+  import paddle
   from paddleslim.nas import RLNAS
   config = [('MobileNetV2Space')]
+  paddle.enable_static()
   rlnas = RLNAS(key='lstm', configs=config)
-  input = fluid.data(name='input', shape=[None, 3, 32, 32], dtype='float32')
+  input = paddle.static.data(name='input', shape=[None, 3, 32, 32], dtype='float32')
   archs = rlnas.next_archs(1)[0]
   for arch in archs:
       output = arch(input)
@@ -266,9 +276,10 @@ RLNAS (Reinforcement Learning Neural Architecture Searchï¼‰æ˜¯åŸºäºŽå¼ºåŒ–å¦ä¹ 
 
 .. code-block:: python
 
-  import paddle.fluid as fluid
+  import paddle
   from paddleslim.nas import RLNAS
   config = [('MobileNetV2Space')]
+  paddle.enable_static()
   rlnas = RLNAS(key='lstm', configs=config)
   rlnas.next_archs(1)
   rlnas.reward(1.0)
@@ -292,9 +303,10 @@ RLNAS (Reinforcement Learning Neural Architecture Searchï¼‰æ˜¯åŸºäºŽå¼ºåŒ–å¦ä¹ 
 
 .. code-block:: python
 
-  import paddle.fluid as fluid
+  import paddle
   from paddleslim.nas import RLNAS
   config = [('MobileNetV2Space')]
+  paddle.enable_static()
   rlnas = RLNAS(key='lstm', configs=config)
   archs = rlnas.final_archs(1)
   print(archs)
@@ -314,11 +326,12 @@ RLNAS (Reinforcement Learning Neural Architecture Searchï¼‰æ˜¯åŸºäºŽå¼ºåŒ–å¦ä¹ 
 
 .. code-block:: python
 
-  import paddle.fluid as fluid
+  import paddle
   from paddleslim.nas import RLNAS
   config = [('MobileNetV2Space')]
+  paddle.enable_static()
   rlnas = RLNAS(key='lstm', configs=config)
-  input = fluid.data(name='input', shape=[None, 3, 32, 32], dtype='float32')
+  input = paddle.static.data(name='input', shape=[None, 3, 32, 32], dtype='float32')
   tokens = ([0] * 25)
   archs = rlnas.tokens2arch(tokens)[0]
   print(archs(input))
diff --git a/docs/zh_cn/api_cn/ofa_api.rst b/docs/zh_cn/api_cn/ofa_api.rst
index 304cbb04..24c189fc 100644
--- a/docs/zh_cn/api_cn/ofa_api.rst
+++ b/docs/zh_cn/api_cn/ofa_api.rst
@@ -1,7 +1,7 @@
 Once-For-All
 ============
 
-åœ¨è¿›è¡ŒOnce-For-Allè®ç»ƒä¹‹å‰ï¼Œéœ€è¦æŠŠæ™®é€šçš„æ¨¡åž‹å…ˆè½¬æ¢ä¸ºç”±åŠ¨æ€OPç»„ç½‘çš„è¶…ç½‘ç»œã€‚è¶…ç½‘ç»œè½¬æ¢æ–¹å¼å¯ä»¥å‚è€ƒ `è¶…ç½‘ç»œè½¬æ¢ <>`_ ã€‚
+åœ¨è¿›è¡ŒOnce-For-Allè®ç»ƒä¹‹å‰ï¼Œéœ€è¦æŠŠæ™®é€šçš„æ¨¡åž‹å…ˆè½¬æ¢ä¸ºç”±åŠ¨æ€OPç»„ç½‘çš„è¶…ç½‘ç»œã€‚è¶…ç½‘ç»œè½¬æ¢æ–¹å¼å¯ä»¥å‚è€ƒ `è¶…ç½‘ç»œè½¬æ¢ <./convert_supernet_api.rst>`_ ã€‚
 
 Once-For-All è®ç»ƒå‚æ•°é…ç½®
 ------------------
@@ -14,7 +14,7 @@ RunConfig
   - **train_batch_size:(int, å¯é€‰):** è®ç»ƒæ—¶çš„batch sizeï¼Œç”¨æ¥è®¡ç®—æ¯ä¸ªepochåŒ…æ‹¬çš„iterationæ•°é‡ã€‚é»˜è®¤ï¼šNoneã€‚
   - **n_epochs(list, å¯é€‰):** åŒ…å«æ¯ä¸ªé˜¶æ®µè¿è¡Œåˆ°å¤šå°‘epochsï¼Œç”¨æ¥åˆ¤æ–å½“å‰epochåœ¨è¶…ç½‘è®ç»ƒä¸æ‰€å¤„çš„é˜¶æ®µï¼Œé»˜è®¤ï¼šNoneã€‚
   - **total_images(int, å¯é€‰):**  è®ç»ƒé›†å›¾ç‰‡æ•°é‡ï¼Œç”¨æ¥è®¡ç®—æ¯ä¸ªepochåŒ…æ‹¬çš„iterationæ•°é‡ã€‚é»˜è®¤ï¼šNoneã€‚
-  - **elastic_depth(list/tuple, å¯é€‰):** å¦‚æžœè®¾ç½®ä¸ºNoneï¼Œåˆ™ä¸æŠŠdepthä½œä¸ºæœç´¢çš„ä¸€éƒ¨åˆ†ï¼Œå¦åˆ™ï¼Œé‡‡æ ·åˆ°çš„configä¸ä¼šåŒ…å«depthã€‚å¯¹æ¨¡åž‹depthçš„æ”¹å˜éœ€è¦åœ¨æ¨¡åž‹å®šä¹‰ä¸çš„forwardéƒ¨åˆ†é…åˆä½¿ç”¨ï¼Œå…·ä½“ç¤ºä¾‹å¯ä»¥å‚è€ƒ `ç¤ºä¾‹ <>`_ ï¼Œé»˜è®¤ï¼šNoneã€‚
+  - **elastic_depth(list/tuple, å¯é€‰):** å¦‚æžœè®¾ç½®ä¸ºNoneï¼Œåˆ™ä¸æŠŠdepthä½œä¸ºæœç´¢çš„ä¸€éƒ¨åˆ†ï¼Œå¦åˆ™ï¼Œé‡‡æ ·åˆ°çš„configä¸ä¼šåŒ…å«depthã€‚å¯¹æ¨¡åž‹depthçš„æ”¹å˜éœ€è¦åœ¨æ¨¡åž‹å®šä¹‰ä¸çš„forwardéƒ¨åˆ†é…åˆä½¿ç”¨ï¼Œå…·ä½“ç¤ºä¾‹å¯ä»¥å‚è€ƒ `ç¤ºä¾‹ <../tutorials/nas/nas_ofa.md>`_ ï¼Œé»˜è®¤ï¼šNoneã€‚
   - **dynamic_batch_size(list, å¯é€‰):** ä»£è¡¨æ¯ä¸ªé˜¶æ®µæ¯ä¸ªbatchæ•°æ®åº”è¯¥å‚ä¸Žå‡ ä¸ªåç½‘ç»œçš„è®ç»ƒï¼Œshapeåº”è¯¥å’Œn_epochsçš„shapeä¿æŒä¸€è‡´ã€‚é»˜è®¤ï¼šNoneã€‚
 
 **è¿”å›žï¼š**
@@ -29,7 +29,7 @@ RunConfig
       'train_batch_size': 1,
       'n_epochs': [[1], [2, 3], [4, 5]],
       'total_images': 12,
-      'elastic_depth': (5, 15, 24)
+      'elastic_depth': (5, 15, 24),
       'dynamic_batch_size': [1, 1, 1],
   }
   run_config = RunConfig(**default_run_config)
@@ -67,7 +67,7 @@ DistillConfig
 
 OFA
 ------------------
-æŠŠè¶…ç½‘ç»œè®ç»ƒæ–¹å¼è½¬æ¢ä¸ºOnce-For-Allçš„æ–¹å¼è®ç»ƒã€‚åœ¨ `Once-For-Allè®ºæ–‡ <>`_ ä¸ï¼Œæå‡º ``Progressive Shrinking`` çš„è¶…ç½‘ç»œè®ç»ƒæ–¹å¼ï¼Œå…·ä½“åŽŸç†æ˜¯åœ¨è®ç»ƒè¿‡ç¨‹ä¸æŒ‰ç…§ ``elastic kernel_size`` ã€ ``elastic width`` ã€ ``elactic depth`` çš„é¡ºåºåˆ†é˜¶æ®µè¿›è¡Œè®ç»ƒï¼Œå¹¶ä¸”åœ¨è®ç»ƒè¿‡ç¨‹ä¸é€æ¥æ‰©å¤§æœç´¢ç©ºé—´ï¼Œä¾‹å¦‚ï¼šæœç´¢ç©ºé—´ä¸º ``kernel_size=(3,5,7), expand_ratio=(0.5, 1.0, 2.0), depth=(0.5, 0.75, 1.0)`` ï¼Œåˆ™åœ¨è®ç»ƒè¿‡ç¨‹ä¸é¦–å…ˆå¯¹kernel sizeçš„å¤§å°è¿›è¡ŒåŠ¨æ€è®ç»ƒï¼Œå¹¶æŠŠkernel_sizeçš„åŠ¨æ€è®ç»ƒåˆ†ä¸ºä¸¤ä¸ªé˜¶æ®µï¼Œç¬¬ä¸€é˜¶æ®µkernel_sizeçš„æœç´¢ç©ºé—´ä¸º ``[5, 7]`` ï¼Œç¬¬äºŒé˜¶æ®µkernel_sizeçš„æœç´¢ç©ºé—´ä¸º ``[3, 5, 7]`` ï¼›ä¹‹åŽæŠŠexpand_ratioçš„åŠ¨æ€è®ç»ƒåŠ å…¥åˆ°è¶…ç½‘ç»œè®ç»ƒä¸ï¼Œå’Œå¯¹kernel_sizeçš„è®ç»ƒæ–¹å¼ç›¸åŒï¼Œå¯¹expand_ratioçš„åŠ¨æ€è®ç»ƒä¹Ÿåˆ†ä¸ºä¸¤ä¸ªé˜¶æ®µï¼Œç¬¬ä¸€é˜¶æ®µexpand_ratioçš„æœç´¢ç©ºé—´ä¸º ``[1.0, 2.0]`` ï¼Œç¬¬äºŒé˜¶æ®µexpand_ratioçš„æœç´¢ç©ºé—´ä¸º ``[0.5, 1.0, 2.0]`` ï¼›æœ€åŽå¯¹depthè¿›è¡ŒåŠ¨æ€è®ç»ƒï¼Œè®ç»ƒé˜¶æ®µå’Œkernel_sizeç›¸åŒã€‚
+æŠŠè¶…ç½‘ç»œè®ç»ƒæ–¹å¼è½¬æ¢ä¸ºOnce-For-Allçš„æ–¹å¼è®ç»ƒã€‚åœ¨ `Once-For-Allè®ºæ–‡ <https://arxiv.org/abs/1908.09791>`_ ä¸ï¼Œæå‡º ``Progressive Shrinking`` çš„è¶…ç½‘ç»œè®ç»ƒæ–¹å¼ï¼Œå…·ä½“åŽŸç†æ˜¯åœ¨è®ç»ƒè¿‡ç¨‹ä¸æŒ‰ç…§ ``elastic kernel_size`` ã€ ``elastic width`` ã€ ``elactic depth`` çš„é¡ºåºåˆ†é˜¶æ®µè¿›è¡Œè®ç»ƒï¼Œå¹¶ä¸”åœ¨è®ç»ƒè¿‡ç¨‹ä¸é€æ¥æ‰©å¤§æœç´¢ç©ºé—´ï¼Œä¾‹å¦‚ï¼šæœç´¢ç©ºé—´ä¸º ``kernel_size=(3,5,7), expand_ratio=(0.5, 1.0, 2.0), depth=(0.5, 0.75, 1.0)`` ï¼Œåˆ™åœ¨è®ç»ƒè¿‡ç¨‹ä¸é¦–å…ˆå¯¹kernel sizeçš„å¤§å°è¿›è¡ŒåŠ¨æ€è®ç»ƒï¼Œå¹¶æŠŠkernel_sizeçš„åŠ¨æ€è®ç»ƒåˆ†ä¸ºä¸¤ä¸ªé˜¶æ®µï¼Œç¬¬ä¸€é˜¶æ®µkernel_sizeçš„æœç´¢ç©ºé—´ä¸º ``[5, 7]`` ï¼Œç¬¬äºŒé˜¶æ®µkernel_sizeçš„æœç´¢ç©ºé—´ä¸º ``[3, 5, 7]`` ï¼›ä¹‹åŽæŠŠexpand_ratioçš„åŠ¨æ€è®ç»ƒåŠ å…¥åˆ°è¶…ç½‘ç»œè®ç»ƒä¸ï¼Œå’Œå¯¹kernel_sizeçš„è®ç»ƒæ–¹å¼ç›¸åŒï¼Œå¯¹expand_ratioçš„åŠ¨æ€è®ç»ƒä¹Ÿåˆ†ä¸ºä¸¤ä¸ªé˜¶æ®µï¼Œç¬¬ä¸€é˜¶æ®µexpand_ratioçš„æœç´¢ç©ºé—´ä¸º ``[1.0, 2.0]`` ï¼Œç¬¬äºŒé˜¶æ®µexpand_ratioçš„æœç´¢ç©ºé—´ä¸º ``[0.5, 1.0, 2.0]`` ï¼›æœ€åŽå¯¹depthè¿›è¡ŒåŠ¨æ€è®ç»ƒï¼Œè®ç»ƒé˜¶æ®µå’Œkernel_sizeç›¸åŒã€‚
 
 .. py:class:: paddleslim.nas.ofa.OFA(model, run_config=None, distill_config=None, elastic_order=None, train_full=False)
 
@@ -96,6 +96,7 @@ OFAå®žä¾‹
    sp_net_config = supernet(kernel_size=(3, 5, 7), expand_ratio=[1, 2, 4])
    sp_model = Convert(sp_net_config).convert(model)
    ofa_model = OFA(sp_model)
+
 ..
 
   .. py:method:: set_epoch(epoch)
@@ -110,9 +111,7 @@ OFAå®žä¾‹
 
   **ç¤ºä¾‹ä»£ç ï¼š**
 
-  .. code-block:: python
-
-    ofa_model.set_epoch(3)
+   ofa_model.set_epoch(3)
 
   .. py:method:: set_task(task, phase=None)
 
@@ -127,9 +126,7 @@ OFAå®žä¾‹
 
   **ç¤ºä¾‹ä»£ç ï¼š**
 
-  .. code-block:: python
-
-    ofa_model.set_task('width')
+   ofa_model.set_task('width')
 
   .. py:method:: set_net_config(config)
 
@@ -143,8 +140,6 @@ OFAå®žä¾‹
 
   **ç¤ºä¾‹ä»£ç ï¼š**
 
-  .. code-block:: python
-
     config = {'conv2d_0': {'expand_ratio': 2}, 'conv2d_1': {'expand_ratio': 2}}
     ofa_model.set_net_config(config)
 
@@ -157,8 +152,6 @@ OFAå®žä¾‹
 
   **ç¤ºä¾‹ä»£ç ï¼š**
 
-  .. code-block:: python
-
     distill_loss = ofa_model.calc_distill_loss()
 
   .. py:method:: search()
@@ -180,7 +173,6 @@ OFAå®žä¾‹
 
   **ç¤ºä¾‹ä»£ç ï¼š**
 
-  .. code-block:: python
     from paddle.vision.models import mobilenet_v1     
     origin_model = mobilenet_v1()
 
diff --git a/docs/zh_cn/api_cn/ofa_layer_api.rst b/docs/zh_cn/api_cn/ofa_layer_api.rst
index dc6a7a0d..14b34c9a 100644
--- a/docs/zh_cn/api_cn/ofa_layer_api.rst
+++ b/docs/zh_cn/api_cn/ofa_layer_api.rst
@@ -1,7 +1,7 @@
 SuperOP
 ========
 
-PaddleSlimæä¾›äº†ä¸€äº›APIçš„åŠ¨æ€ç‰ˆæœ¬ï¼ŒåŠ¨æ€APIæŒ‡çš„æ˜¯è¿™äº›OPçš„å‚æ•°å¤§å°å¯ä»¥åœ¨å®žé™…è¿è¡Œè¿‡ç¨‹ä¸æ ¹æ®ä¼ å…¥çš„å‚æ•°è¿›è¡Œæ”¹å˜ï¼Œç”¨æ³•ä¸Šçš„å·®åˆ«å…·ä½“æ˜¯forwardæ—¶å€™éœ€è¦é¢å¤–ä¼ ä¸€äº›å®žé™…è¿è¡Œç›¸å…³çš„å‚æ•°ã€‚å…¶ä¸ `layers_old.py <>`_ å¯¹åº”çš„æ˜¯Paddle 2.0alphaåŠä¹‹å‰ç‰ˆæœ¬çš„APIï¼Œ `layers.py <>`_ å¯¹åº”çš„æ˜¯Paddle 2.0alphaä¹‹åŽç‰ˆæœ¬çš„APIã€‚
+PaddleSlimæä¾›äº†ä¸€äº›APIçš„åŠ¨æ€ç‰ˆæœ¬ï¼ŒåŠ¨æ€APIæŒ‡çš„æ˜¯è¿™äº›OPçš„å‚æ•°å¤§å°å¯ä»¥åœ¨å®žé™…è¿è¡Œè¿‡ç¨‹ä¸æ ¹æ®ä¼ å…¥çš„å‚æ•°è¿›è¡Œæ”¹å˜ï¼Œç”¨æ³•ä¸Šçš„å·®åˆ«å…·ä½“æ˜¯forwardæ—¶å€™éœ€è¦é¢å¤–ä¼ ä¸€äº›å®žé™…è¿è¡Œç›¸å…³çš„å‚æ•°ã€‚å…¶ä¸ `layers_old.py <../../../paddleslim/nas/ofa/layers_old.py>`_ å¯¹åº”çš„æ˜¯Paddle 2.0alphaåŠä¹‹å‰ç‰ˆæœ¬çš„APIï¼Œ `layers.py <../../../paddleslim/nas/ofa/layers.py>`_ å¯¹åº”çš„æ˜¯Paddle 2.0alphaä¹‹åŽç‰ˆæœ¬çš„APIã€‚
 
 .. py:class:: paddleslim.nas.ofa.layers.Block(fn, fixed=False, key=None)
 
@@ -21,8 +21,9 @@ Blockå®žä¾‹
 
 .. code-block:: python
 
-  from paddleslim.nas.ofa.layers import Block
-  block_layer = Block(SuperConv2D(3, 4, 3, candidate_config={'kerne_size': (3, 5, 7)})
+  from paddleslim.nas.ofa.layers import Block, SuperConv2D
+  
+  block_layer = Block(SuperConv2D(3, 4, 3, candidate_config={'kerne_size': (3, 5, 7)}))
 
 .. py:class:: paddleslim.nas.ofa.layers.SuperConv2D(in_channels, out_channels, kernel_size, candidate_config={}, transform_kernel=False, stride=1, padding=0, dilation=1, groups=1, padding_mode='zeros', weight_attr=None, bias_attr=None, data_format='NCHW')
 
@@ -63,7 +64,7 @@ Blockå®žä¾‹
    data = np.random.uniform(-1, 1, [10, 3, 32, 32]).astype('float32')
    super_conv2d = SuperConv2D(3, 10, 3)
    config = {'channel': 5}
-   data = paddle.to_variable(data)
+   data = paddle.to_tensor(data)
    conv = super_conv2d(data, **config)
 
 .. py:class:: paddleslim.nas.ofa.layers.SuperConv2DTranspose(in_channels, out_channels, kernel_size, candidate_config={}, transform_kernel=False, stride=1, padding=0, output_padding=0, dilation=1, groups=1, padding_mode='zeros', weight_attr=None, bias_attr=None, data_format='NCHW')
@@ -99,14 +100,14 @@ Blockå®žä¾‹
 
 .. code-block:: python
 
-   import paddle 
-   from paddleslim.nas.ofa.layers import SuperConv2D
-   import numpy as np
-   data = np.random.uniform(-1, 1, [32, 10, 32, 32]).astype('float32')
-   config = {'channel': 5}
-   data = paddle.to_variable(data)
-   super_convtranspose = SuperConv2DTranspose(num_channels=32, num_filters=10, filter_size=3)
-   ret = super_convtranspose(paddle.to_variable(data), **config)
+  import paddle 
+  from paddleslim.nas.ofa.layers import SuperConv2DTranspose
+  import numpy as np
+  data = np.random.uniform(-1, 1, [32, 10, 32, 32]).astype('float32')
+  config = {'channel': 5}
+  data = paddle.to_tensor(data)
+  super_convtranspose = SuperConv2DTranspose(32, 10, 3)
+  ret = super_convtranspose(paddle.to_tensor(data), **config)
 
 
 .. py:class:: paddleslim.nas.ofa.layers.SuperLinear(in_features, out_features, candidate_config={}, weight_attr=None, bias_attr=None, name=None):
@@ -138,10 +139,10 @@ Blockå®žä¾‹
   import paddle
   from paddleslim.nas.ofa.layers import SuperLinear
 
-  data = np.random.uniform(-1, 1, [32, 64] ).astype('float32')
+  data = np.random.uniform(-1, 1, [32, 64]).astype('float32')
   config = {'channel': 16}
-  linear = SuperLinear(32, 64)
-  data = paddle.to_variable(data)
+  linear = SuperLinear(64, 64)
+  data = paddle.to_tensor(data)
   res = linear(data, **config)
 
 
@@ -175,10 +176,10 @@ Blockå®žä¾‹
   import paddle
   from paddleslim.nas.ofa.layers import SuperEmbedding
 
-  data = np.random.uniform(-1, 1, [32, 64]).astype('float32')
+  data = np.random.uniform(-1, 1, [32, 64]).astype('int64')
   config = {'channel': 16}
-  emb = SuperEmbedding(32, 64)
-  data = paddle.to_variable(data)
+  emb = SuperEmbedding(64, 64)
+  data = paddle.to_tensor(data)
   res = emb(data, **config)
 
 .. py:class:: paddleslim.nas.ofa.layers.SuperBatchNorm2D(num_features, momentum=0.9, epsilon=1e-05, weight_attr=None, bias_attr=None, data_format='NCHW', name=None):
@@ -261,8 +262,8 @@ Blockå®žä¾‹
     from paddleslim.nas.ofa.layers import SuperLayerNorm
 
     np.random.seed(123)
-    x_data = np.random.random(size=(2, 2, 2, 3)).astype('float32')
+    x_data = np.random.random(size=(2, 3)).astype('float32')
     x = paddle.to_tensor(x_data) 
-    layer_norm = SuperLayerNorm(x_data.shape[1:])
+    layer_norm = SuperLayerNorm(x_data.shape[1])
     layer_norm_out = layer_norm(x)
 
diff --git a/docs/zh_cn/tutorials/static/ernie_slim_ofa_tutorial.md b/docs/zh_cn/tutorials/nas/ernie_slim_ofa_tutorial.md
similarity index 100%
rename from docs/zh_cn/tutorials/static/ernie_slim_ofa_tutorial.md
rename to docs/zh_cn/tutorials/nas/ernie_slim_ofa_tutorial.md
diff --git a/docs/zh_cn/tutorials/nas/nas_ofa.md b/docs/zh_cn/tutorials/nas/nas_ofa.md
new file mode 100644
index 00000000..7df1d6f2
--- /dev/null
+++ b/docs/zh_cn/tutorials/nas/nas_ofa.md
@@ -0,0 +1,93 @@
+# Once-For-All
+
+&emsp;&emsp;[Once-For-All(ä»¥ä¸‹ç®€ç§°OFA)](https://arxiv.org/abs/1908.09791)ä¸»è¦çš„ç›®çš„æ˜¯è®ç»ƒä¸€ä¸ªè¶…ç½‘ç»œï¼Œæ ¹æ®ä¸åŒçš„ç¡¬ä»¶ä»Žè¶…ç½‘ç»œä¸é€‰æ‹©æ»¡è¶³æ—¶å»¶è¦æ±‚å’Œç²¾åº¦è¦æ±‚çš„å°æ¨¡åž‹ã€‚å¯ä»¥åŸºäºŽå·²æœ‰çš„é¢„è®ç»ƒæ¨¡åž‹è¿›è¡ŒåŽ‹ç¼©ä¹Ÿæ˜¯OFAä¸€ä¸ªå¾ˆå¤§çš„ä¼˜åŠ¿ã€‚  
+&emsp;&emsp;ä¸ºäº†é˜²æ¢åç½‘ç»œä¹‹é—´äº’ç›¸å¹²æ‰°ï¼Œæœ¬è®ºæ–‡æå‡ºäº†ä¸€ç§Progressive Shrinking(PS)çš„æ¨¡å¼è¿›è¡Œè¶…ç½‘ç»œè®ç»ƒï¼Œé€æ¥ä»Žå¤§åž‹åç½‘ç»œåˆ°å°åž‹åç½‘ç»œè¿›è¡Œè®ç»ƒã€‚é¦–å…ˆæ˜¯ä»Žæœ€å¤§çš„åç½‘ç»œå¼€å§‹è®ç»ƒï¼Œä¾‹å¦‚ï¼šè¶…ç½‘ç»œåŒ…å«å¯å˜çš„å·ç§¯æ ¸å¤§å° kernel_size = {3, 5, 7}ï¼Œå¯å˜çš„ç½‘ç»œç»“æž„æ·±åº¦ depth = {2, 3, 4} å’Œå¯å˜çš„ç½‘ç»œçš„å®½åº¦ expand_ratio = {2, 4, 6}ï¼Œåˆ™è®ç»ƒå·ç§¯æ ¸ä¸º7ã€æ·±åº¦ä¸º4ï¼Œå®½åº¦ä¸º6çš„ç½‘ç»œã€‚ä¹‹åŽé€æ¥å°†å…¶æ·»åŠ åˆ°æœç´¢ç©ºé—´ä¸æ¥é€æ¥è°ƒæ•´ç½‘ç»œä»¥æ”¯æŒè¾ƒå°çš„åç½‘ç»œã€‚å…·ä½“æ¥è¯´ï¼Œåœ¨è®ç»ƒäº†æœ€å¤§çš„ç½‘ç»œä¹‹åŽï¼Œæˆ‘ä»¬é¦–å…ˆæ”¯æŒå¯å˜å·ç§¯æ ¸å¤§å°ï¼Œå¯ä»¥åœ¨{3ï¼Œ5ï¼Œ7}ä¸è¿›è¡Œé€‰æ‹©ï¼Œè€Œæ·±åº¦å’Œå®½åº¦åˆ™ä¿æŒæœ€å¤§å€¼ã€‚ç„¶åŽï¼Œæˆ‘ä»¬ä¾æ¬¡æ”¯æŒå¯å˜æ·±åº¦å’Œå¯å˜å®½åº¦ã€‚
+
+## ä½¿ç”¨æ–¹æ³•
+
+OFAçš„åŸºæœ¬æµç¨‹åˆ†ä¸ºä»¥ä¸‹æ¥éª¤ï¼š
+1. å®šä¹‰è¶…ç½‘ç»œ
+2. è®ç»ƒé…ç½®
+3. è’¸é¦é…ç½®
+4. ä¼ å…¥æ¨¡åž‹å’Œç›¸åº”é…ç½®
+
+### 1. å®šä¹‰è¶…ç½‘ç»œ
+   è¿™é‡Œçš„è¶…ç½‘ç»œæŒ‡çš„æ˜¯ç”¨[åŠ¨æ€OP](../../api_cn/ofa_layer_api.rst)ç»„ç½‘çš„ç½‘ç»œã€‚
+   PaddleSlimæä¾›äº†ä¸‰ç§èŽ·å¾—è¶…ç½‘ç»œçš„æ–¹å¼ï¼Œå…·ä½“å¯ä»¥å‚è€ƒ[è¶…ç½‘ç»œè½¬æ¢](../../api_cn/convert_supernet_api.rst)ã€‚
+
+```python
+  import paddle
+  from paddle.vision.models import mobilenet_v1
+  from paddleslim.nas.ofa.convert_super import Convert, supernet
+
+  model = mobilenet_v1()
+  sp_net_config = supernet(kernel_size=(3, 5, 7), expand_ratio=[1, 2, 4])
+  sp_model = Convert(sp_net_config).convert(model)
+```
+
+### 2. è®ç»ƒé…ç½®
+   è®ç»ƒé…ç½®é»˜è®¤æ ¹æ®è®ºæ–‡ä¸PSçš„è®ç»ƒæ¨¡å¼è¿›è¡Œé…ç½®ï¼Œå¯è¿›è¡Œé…ç½®çš„å‚æ•°å’Œå«ä¹‰å¯ä»¥å‚è€ƒ: [RunConfig](../../api_cn/ofa_api.rst)
+
+```python
+  from paddleslim.nas.ofa import RunConfig
+  default_run_config = {
+      'train_batch_size': 256,
+      'n_epochs': [[1], [2, 3], [4, 5]],
+      'init_learning_rate': [[0.001], [0.003, 0.001], [0.003, 0.001]],
+      'dynamic_batch_size': [1, 1, 1],
+      'total_images': 1281167,
+      'elastic_depth': (2, 5, 8)
+  }
+  run_config = RunConfig(**default_run_config)
+```
+
+### 3. è’¸é¦é…ç½®
+  ä¸ºOFAè®ç»ƒè¿‡ç¨‹æ·»åŠ è’¸é¦é…ç½®ï¼Œå¯è¿›è¡Œé…ç½®çš„å‚æ•°å’Œå«ä¹‰å¯ä»¥å‚è€ƒ: [DistillConfig](../../api_cn/ofa_api.rst)
+
+```python
+  from paddle.vision.models import mobilenet_v1
+  from paddleslim.nas.ofa import DistillConfig
+  teacher_model = mobilenet_v1()
+
+  default_distill_config = {
+      'teacher_model': teacher_model
+  }
+  distill_config = DistillConfig(**default_distill_config)
+```
+
+### 4. ä¼ å…¥æ¨¡åž‹å’Œç›¸åº”é…ç½®
+  ç”¨OFAå°è£…æ¨¡åž‹ã€è®ç»ƒé…ç½®å’Œè’¸é¦é…ç½®ã€‚é…ç½®å®Œæ¨¡åž‹å’Œæ£å¸¸æ¨¡åž‹è®ç»ƒæµç¨‹ç›¸åŒã€‚å¦‚æžœæ·»åŠ äº†è’¸é¦ï¼Œåˆ™OFAå°è£…åŽçš„æ¨¡åž‹ä¼šæ¯”åŽŸå§‹æ¨¡åž‹å¤šè¿”å›žä¸€ç»„æ•™å¸ˆç½‘ç»œçš„è¾“å‡ºã€‚
+```python
+  from paddleslim.nas.ofa import OFA
+
+  ofa_model = OFA(model, run_config=run_config, distill_config=distill_config)
+```
+
+## å®žéªŒæ•ˆæžœ
+
+ç›®å‰æˆ‘ä»¬è¿›åœ¨BERT-baseã€TinyBERTå’ŒTinyERNIEä¸Šè¿›è¡Œäº†åŽ‹ç¼©å®žéªŒï¼Œå…¶ä»–CVä»»åŠ¡çš„åŽ‹ç¼©æ•ˆæžœä¹‹åŽä¼šè¿›è¡Œè¡¥å……ã€‚BERTå’ŒTinyBERTçš„åŽ‹ç¼©ç»“æžœå¦‚ä¸‹è¡¨æ‰€ç¤ºã€‚
+
+&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;<strong>è¡¨1: BERT-baseä¸ŠGLUEæ•°æ®é›†ç²¾åº¦å¯¹æ¯”</strong>
+| Task  | Metric                       | BERT-base         | Result with PaddleSlim |
+|:-----:|:----------------------------:|:-----------------:|:----------------------:|
+| SST-2 | Accuracy                     |      0.93005      |     [0.931193]()       |
+| QNLI  | Accuracy                     |      0.91781      |     [0.920740]()       |
+| CoLA  | Mattehew's corr              |      0.59557      |     [0.601244]()       |
+| MRPC  | F1/Accuracy                  |  0.91667/0.88235  |  [0.91740/0.88480]()   |
+| STS-B | Person/Spearman corr         |  0.88847/0.88350  |  [0.89271/0.88958]()   |
+| QQP   | Accuracy/F1                  |  0.90581/0.87347  |  [0.90994/0.87947]()   |
+| MNLI  | Matched acc/MisMatched acc   |  0.84422/0.84825  |  [0.84687/0.85242]()   |
+| RTE   | Accuracy                     |      0.711191     |     [0.718412]()       |
+
+
+&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;<strong>è¡¨2: TinyBERTä¸ŠGLUEæ•°æ®é›†ç²¾åº¦å¯¹æ¯”</strong>
+| Task  | Metric                       | TinyBERT(L=4, D=312) |     Result with OFA    |
+|:-----:|:----------------------------:|:--------------------:|:----------------------:|
+| SST-2 | Accuracy                     |     [0.9234]()       |      [0.9220]()        |
+| QNLI  | Accuracy                     |     [0.8746]()       |      [0.8720]()        |
+| CoLA  | Mattehew's corr              |     [0.4961]()       |      [0.5048]()        |
+| MRPC  | F1/Accuracy                  |  [0.8998/0.8554]()   |   [0.9003/0.8578]()    |
+| STS-B | Person/Spearman corr         |  [0.8635/0.8631]()   |   [0.8717/0.8706]()    |
+| QQP   | Accuracy/F1                  |  [0.9047/0.8751]()   |   [0.9034/0.8733]()    |
+| MNLI  | Matched acc/MisMatched acc   |  [0.8256/0.8294]()   |   [0.8211/0.8261]()    |
+| RTE   | Accuracy                     |     [0.6534]()       |      [0.6787]()        |
diff --git a/docs/zh_cn/tutorials/nas/nas_overview.md b/docs/zh_cn/tutorials/nas/nas_overview.md
new file mode 100644
index 00000000..b15fd63d
--- /dev/null
+++ b/docs/zh_cn/tutorials/nas/nas_overview.md
@@ -0,0 +1,20 @@
+# PaddleSlimæ¨¡åž‹ç»“æž„æœç´¢æ€»è§ˆ
+
+PaddleSlimæä¾›äº†4ç§ç½‘ç»œç»“æž„æœç´¢çš„æ–¹æ³•ï¼šåŸºäºŽæ¨¡æ‹Ÿé€€ç«è¿›è¡Œç½‘ç»œç»“æž„æœç´¢ã€åŸºäºŽå¼ºåŒ–å¦ä¹ è¿›è¡Œç½‘ç»œç»“æž„æœç´¢ã€åŸºäºŽæ¢¯åº¦è¿›è¡Œç½‘ç»œç»“æž„æœç´¢å’ŒOnce-For-Allã€‚
+
+| ç®—æ³•åç§°  |   ç®—æ³•ç®€ä»‹   | ä»£è¡¨æ¨¡åž‹ |
+|:---------:|:------------:|:--------:|
+| [Once-For-All](nas_ofa.md)    | OFAæ˜¯ä¸€ç§åŸºäºŽOne-Shot NASçš„åŽ‹ç¼©æ–¹æ¡ˆã€‚è¿™ç§æ–¹å¼æ¯”è¾ƒé«˜æ•ˆï¼Œå…¶ä¼˜åŠ¿æ˜¯åªéœ€è¦è®ç»ƒä¸€ä¸ªè¶…ç½‘ç»œå°±å¯ä»¥ä»Žä¸é€‰æ‹©æ»¡è¶³ä¸åŒå»¶æ—¶è¦æ±‚çš„åæ¨¡åž‹ã€‚ | Once-For-All   |
+| [SANAS](../../quick_start/static/nas_tutorial.md)            | SANASæ˜¯åŸºäºŽæ¨¡æ‹Ÿé€€ç«çš„æ–¹å¼è¿›è¡Œç½‘ç»œç»“æž„æœç´¢ï¼Œåœ¨æœºå™¨èµ„æºä¸å¤šçš„æƒ…å†µä¸‹ï¼Œé€‰æ‹©è¿™ç§æ–¹å¼ä¸€èˆ¬èƒ½å¾—åˆ°æ¯”å¼ºåŒ–å¦ä¹ æ›´å¥½çš„æ¨¡åž‹ã€‚             | \              |
+| [RLNAS](./../api_cn/nas_api.rst)            | RLNASæ˜¯åŸºäºŽå¼ºåŒ–å¦ä¹ çš„æ–¹å¼è¿›è¡Œç½‘ç»œç»“æž„æœç´¢ï¼Œè¿™ç§æ–¹å¼éœ€è¦è€—è´¹å¤§é‡æœºå™¨èµ„æºã€‚ | ENASã€NasNetã€MNasNet  |
+| [DARTS/PCDARTS](../../api_cn/darts.rst) | DARTSæ˜¯åŸºäºŽæ¢¯åº¦è¿›è¡Œç½‘ç»œç»“æž„æœç´¢ï¼Œè¿™ç§æ–¹å¼æ¯”è¾ƒé«˜æ•ˆï¼Œå¤§å¤§å‡å°‘äº†æœç´¢æ—¶é—´å’Œæ‰€éœ€è¦çš„æœºå™¨èµ„æºã€‚ |DARTSã€PCDARTSã€ProxylessNAS|
+
+
+# å‚è€ƒæ–‡çŒ®
+[1] H. Cai, C. Gan, T. Wang, Z. Zhang, and S. Han. Once for all: Train one network and specialize it for efficient deployment. In International Conference on Learning Representations, 2020.  
+[2] Pham, H.; Guan, M. Y.; Zoph, B.; Le, Q. V.; and Dean, J. 2018. Efficient neural architecture search via parameter sharing. arXiv preprint arXiv:1802.03268.  
+[3] Zoph B, Vasudevan V, Shlens J, et al. Learning transferable architectures for scalable image recognition[J]. arXiv preprint arXiv:1707.07012, 2017, 2(6).  
+[4] Mingxing Tan, Bo Chen, Ruoming Pang, Vijay Vasudevan, and Quoc V Le. Mnasnet: Platform-aware neural architecture search for mobile. arXiv preprint arXiv:1807.11626, 2018.  
+[5] H Liu, K Simonyan, Y Yang. Darts: Differentiable architecture search. arXiv preprint arXiv:1806.09055, 2018.  
+[6] Xu, Y., Xie, L., Zhang, X., Chen, X., Qi, G.J., Tian, Q., Xiong, H.: PCDARTS: Partial Channel Connections for Memory-efficient Differentiable Architecture Search. In: International Conference on Learning Representations (2020)  
+[7] Han Cai, Ligeng Zhu, and Song Han. ProxylessNAS: Direct neural architecture search on target task and hardware. In ICLR, 2019. URL https://arxiv.org/pdf/1812.00332.pdf. 3, 5, 6, 7, 8  
diff --git a/docs/zh_cn/tutorials/static/paddlenlp_slim_ofa_tutorial.md b/docs/zh_cn/tutorials/nas/paddlenlp_slim_ofa_tutorial.md
similarity index 100%
rename from docs/zh_cn/tutorials/static/paddlenlp_slim_ofa_tutorial.md
rename to docs/zh_cn/tutorials/nas/paddlenlp_slim_ofa_tutorial.md
diff --git a/paddleslim/nas/ofa/layers.py b/paddleslim/nas/ofa/layers.py
index 34b930e1..a4b63913 100644
--- a/paddleslim/nas/ofa/layers.py
+++ b/paddleslim/nas/ofa/layers.py
@@ -104,7 +104,9 @@ class SuperConv2D(nn.Conv2D):
     applied to the final result.
     For each input :math:`X`, the equation is:
     .. math::
-        Out = \\sigma (W \\ast X + b)
+
+        Out = sigma (W \\ast X + b)
+
     Where:
     * :math:`X`: Input value, a ``Tensor`` with NCHW format.
     * :math:`W`: Filter value, a ``Tensor`` with shape [MCHW] .
@@ -121,8 +123,11 @@ class SuperConv2D(nn.Conv2D):
           Output shape: :math:`(N, C_{out}, H_{out}, W_{out})`
         Where
         .. math::
-            H_{out}&= \\frac{(H_{in} + 2 * paddings[0] - (dilations[0] * (H_f - 1) + 1))}{strides[0]} + 1 \\\\
+
+            H_{out}&= \\frac{(H_{in} + 2 * paddings[0] - (dilations[0] * (H_f - 1) + 1))}{strides[0]} + 1   
+
             W_{out}&= \\frac{(W_{in} + 2 * paddings[1] - (dilations[1] * (W_f - 1) + 1))}{strides[1]} + 1
+
     Parameters:
         num_channels(int): The number of channels in the input image.
         num_filters(int): The number of filter. It is as same as the output
@@ -182,7 +187,7 @@ class SuperConv2D(nn.Conv2D):
           data = np.random.uniform(-1, 1, [10, 3, 32, 32]).astype('float32')
           super_conv2d = SuperConv2D(3, 10, 3)
           config = {'channel': 5}
-          data = paddle.to_variable(data)
+          data = paddle.to_tensor(data)
           conv = super_conv2d(data, config)
 
     """
@@ -480,8 +485,8 @@ class SuperConv2DTranspose(nn.Conv2DTranspose):
           from paddleslim.nas.ofa.layers import SuperConv2DTranspose
           data = np.random.random((3, 32, 32, 5)).astype('float32')
           config = {'channel': 5}
-          super_convtranspose = SuperConv2DTranspose(num_channels=32, num_filters=10, filter_size=3)
-          ret = super_convtranspose(paddle.to_variable(data), config)
+          super_convtranspose = SuperConv2DTranspose(32, 10, 3)
+          ret = super_convtranspose(paddle.to_tensor(data), config)
     """
 
     def __init__(self,
@@ -871,10 +876,10 @@ class SuperLinear(nn.Linear):
           import paddle
           from paddleslim.nas.ofa.layers import SuperLinear
           
-          data = np.random.uniform(-1, 1, [32, 64] ).astype('float32')
+          data = np.random.uniform(-1, 1, [32, 64]).astype('float32')
           config = {'channel': 16}
-          linear = SuperLinear(32, 64)
-          data = paddle.to_variable(data)
+          linear = SuperLinear(64, 64)
+          data = paddle.to_tensor(data)
           res = linear(data, **config)
     """
 
@@ -1088,9 +1093,9 @@ class SuperLayerNorm(nn.LayerNorm):
           from paddleslim.nas.ofa.layers import SuperLayerNorm
           
           np.random.seed(123)
-          x_data = np.random.random(size=(2, 2, 2, 3)).astype('float32')
+          x_data = np.random.random(size=(2, 3)).astype('float32')
           x = paddle.to_tensor(x_data)
-          layer_norm = SuperLayerNorm(x_data.shape[1:])
+          layer_norm = SuperLayerNorm(x_data.shape[1])
           layer_norm_out = layer_norm(x)
     """
 
@@ -1162,10 +1167,10 @@ class SuperEmbedding(nn.Embedding):
           import paddle
           from paddleslim.nas.ofa.layers import SuperEmbedding
           
-          data = np.random.uniform(-1, 1, [32, 64]).astype('float32')
+          data = np.random.uniform(-1, 1, [32, 64]).astype('int64')
           config = {'channel': 16}
-          emb = SuperEmbedding(32, 64)
-          data = paddle.to_variable(data)
+          emb = SuperEmbedding(64, 64)
+          data = paddle.to_tensor(data)
           res = emb(data, **config)
     """
 
diff --git a/paddleslim/nas/ofa/layers_old.py b/paddleslim/nas/ofa/layers_old.py
index fa136875..ef53a428 100644
--- a/paddleslim/nas/ofa/layers_old.py
+++ b/paddleslim/nas/ofa/layers_old.py
@@ -930,10 +930,10 @@ class SuperBatchNorm(fluid.dygraph.BatchNorm):
                  "use_mkldnn", False, "fuse_with_relu", self._fuse_with_relu,
                  "use_global_stats", self._use_global_stats,
                  'trainable_statistics', self._trainable_statistics)
-        batch_norm_out, _, _, _, _, _ = core.ops.batch_norm(
+        batch_norm_out = core.ops.batch_norm(
             input, weight, bias, mean, variance, mean_out, variance_out, *attrs)
         return dygraph_utils._append_activation_in_dygraph(
-            batch_norm_out, act=self._act)
+            batch_norm_out[0], act=self._act)
 
 
 class SuperInstanceNorm(fluid.dygraph.InstanceNorm):
-- 
GitLab