Add Anakin Doc (#83)

* add anakin docker * add * add doc * delete docker * Update index_anakin_ch.rst * Update index_anakin_ch.rst * Update index_anakin_ch.rst * Update index_anakin_ch.rst * Update index_anakin.rst * Update anakin_parser_design_ch.md * Update and rename anakin_parser_design_ch.md to anakin_parser_design.md * Delete index_anakin_ch.rst * Update anakin_parser_design.md * update * update * Update anakin_parser_design.md * fix format * fix format * fix format * Delete .DS_Store * Delete .DS_Store * Delete menu.json * Update anakin_parser_design.md * change fluid to paddle

Add Anakin Doc (#83)
* add anakin docker * add * add doc * delete docker * Update index_anakin_ch.rst * Update index_anakin_ch.rst * Update index_anakin_ch.rst * Update index_anakin_ch.rst * Update index_anakin.rst * Update anakin_parser_design_ch.md * Update and rename anakin_parser_design_ch.md to anakin_parser_design.md * Delete index_anakin_ch.rst * Update anakin_parser_design.md * update * update * Update anakin_parser_design.md * fix format * fix format * fix format * Delete .DS_Store * Delete .DS_Store * Delete menu.json * Update anakin_parser_design.md * change fluid to paddle
1ccd4d31 · chenjiaoAngel · Shan Yi · 9a8ce09c · 1ccd4d31 · 1ccd4d31
11 changed file
--- a/doc/fluid/advanced_usage/deploy/anakin_arm_benchmark.md
+++ b/doc/fluid/advanced_usage/deploy/anakin_arm_benchmark.md
@@ -25,15 +25,15 @@
 ### <span id = '11'> mobilenetv1 </span>
-   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)| 
+   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)|
   |:---: | :---: | :---: | :---:| :---:| :---:| :---:| :---:| :---:| :---:|
   |麒麟960|107.7ms|61.1ms|38.2ms|152.8ms|85.2ms|51.9ms|152.6ms|nan|nan|
   |高通835|105.7ms|63.1ms|~~46.8ms~~|152.7ms|87.0ms|~~92.7ms~~|146.9ms|nan|nan|
-   |高通653|120.3ms|64.2ms|46.6ms|202.5ms|117.6ms|84.8ms|158.6ms|nan|nan| 
+   |高通653|120.3ms|64.2ms|46.6ms|202.5ms|117.6ms|84.8ms|158.6ms|nan|nan|
 ### <span id = '22'> mobilenetv2 </span>
-   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)| 
+   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)|
   |:---: | :---: | :---: | :---:| :---:| :---:| :---:| :---:| :---:| :---:|
   |麒麟960|93.1ms|53.9ms|34.8ms|144.4ms|84.3ms|55.3ms|100.6ms|nan|nan|
   |高通835|93.0ms|55.6ms|41.1ms|139.1ms|88.4ms|58.1ms|95.2ms|nan|nan|
@@ -41,7 +41,7 @@
 ### <span id = '33'> mobilenet-ssd </span>
-   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)| 
+   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)|
   |:---: | :---: | :---: | :---:| :---:| :---:| :---:| :---:| :---:| :---:|
   |麒麟960|213.9ms|120.5ms|74.5ms|307.9ms|166.5ms|104.2ms|nan|nan|nan|
   |高通835|213.0ms|125.7ms|~~98.4ms~~|292.9ms|177.9ms|~~167.8ms~~|nan|nan|nan|
@@ -49,8 +49,8 @@
 ## How to run those Benchmark models?
-1. 首先, 使用[External Converter](../docs/Manual/Converter_en.md)对caffe model 进行转换
+   1. 首先, 使用[External Converter](./convert_paddle_to_anakin.md)对caffe model 进行转换
-2. 然后将转换后的Anakin model和编译好的benchmark_arm 二进制文件通过'adb push'命令上传至测试机
+   2. 然后将转换后的Anakin model和编译好的benchmark_arm 二进制文件通过'adb push'命令上传至测试机
-3. 接着在测试机含有Anakin model的目录中运行'./benchmark_arm ./ anakin_model.anakin.bin 1 10 10 1' 命令
+   3. 接着在测试机含有Anakin model的目录中运行'./benchmark_arm ./ anakin_model.anakin.bin 1 10 10 1' 命令
-4. 最后，终端显示器上将会打印该模型的运行时间
+   4. 最后，终端显示器上将会打印该模型的运行时间
-5. 其中运行命令的参数个数和含义可以通过运行'./benchmark_arm'看到
+   5. 其中运行命令的参数个数和含义可以通过运行'./benchmark_arm'看到
--- a/doc/fluid/advanced_usage/deploy/anakin_example.md
+++ b/doc/fluid/advanced_usage/deploy/anakin_example.md
-# Example
+# Anakin 运行模型示例
 Anakin目前只支持NCHW的格式
 示例文件在test/framework/net下
 ## 在NV的GPU上运行CNN模型
 示例文件为打开example_nv_cnn_net.cpp，整体流程如下：
- 将模型的的path设置为anakin模型的路径，初始化NV平台的图对象。 anakin模型可以通过转换器转化caffe或fluid的模型得到
+- 将模型的的path设置为anakin模型的路径，初始化NV平台的图对象。 anakin模型可以通过转换器转化caffe或Paddle的模型得到
 - 根据模型设置网络图的输入尺寸，进行图优化
 - 根据优化后的网络图初始化网络执行器
 - 取出网络的输入tensor，将数据拷贝到输入tensor
@@ -14,15 +18,21 @@
 以NV平台为例演示Anakin框架的使用方法，注意编译时需要打开GPU编译开关
 ## 在X86上运行RNN模型
 示例文件为example_x86_rnn_net.cpp
 整体流程与在NV的GPU上运行CNN模型相似，不同之处如下：
 - 使用X86标识初始化图对象和网络执行器对象
 - rnn模型的输入尺寸是可变的，初始化图时的输入维度是维度的最大值，输入维度N代表总的词的个数。还需要设置输入tensor的seq_offset来标示这些词是如何划分为句子的,如{0,5,12}表示共有12个词，其中第0到第4个词是第一句话，第5到第11个词是第二句话
 以X86平台为例演示Anakin框架的使用方法，注意编译时需要打开X86编译开关
 ## 在NV的GPU上使用Anakin的线程池运行CNN模型
 示例文件为example_nv_cnn_net_multi_thread.cpp ，示例使用worker的同步预测接口
 整体流程与在NV的GPU上运行CNN模型相似，不同之处如下：
 - 用模型地址和线程池大小初始化worker对象
 - 将输入tensor注入任务队列,获得输出tensor
--- a/doc/fluid/advanced_usage/deploy/anakin_gpu_benchmark.md
+++ b/doc/fluid/advanced_usage/deploy/anakin_gpu_benchmark.md
-# Anakin GPU Benchmark
+# Anakin GPU 性能测试
-## Machine:
+## 环境:
 >  CPU: `12-core Intel(R) Xeon(R) CPU E5-2620 v2 @2.10GHz`
 >  GPU: `Tesla P4`
 >  cuDNN: `v7`
-## Counterpart of anakin  :
+## anakin 对比对象:
-The counterpart of **`Anakin`** is the acknowledged high performance inference engine **`NVIDIA TensorRT 3`** ,   The models which TensorRT 3 doesn't support we use the custom plugins  to support.
+**`Anakin`** 将与高性能的推理引擎 **`NVIDIA TensorRT 3`** 进行比较
 ## Benchmark Model
-The following convolutional neural networks are tested with both `Anakin` and `TenorRT3`.
+> 注意在性能测试之前，请先将测试model通过 `External Converter` 工具转换为Anakin model
- You can use pretrained caffe model or the model trained by youself.
+> 对这些model，本文在GPU上进行单线程单GPU卡的性能测试。
-> Please note that you should transform caffe model or others into anakin model with the help of [`external converter ->`](../docs/Manual/Converter_en.md)
+- [Vgg16](#1)   *caffe model 可以在[这儿](https://gist.github.com/jimmie33/27c1c0a7736ba66c2395)下载*
+- [Yolo](#2)  *caffe model 可以在[这儿](https://github.com/hojel/caffe-yolo-model)下载*
+- [Resnet50](#3)  *caffe model 可以在[这儿](https://github.com/KaimingHe/deep-residual-networks#models)下载*
- [Vgg16](#1)   *caffe model can be found [here->](https://gist.github.com/jimmie33/27c1c0a7736ba66c2395)*
+- [Resnet101](#4)  *caffe model 可以在[这儿](https://github.com/KaimingHe/deep-residual-networks#models)下载*
- [Yolo](#2)  *caffe model can be found [here->](https://github.com/hojel/caffe-yolo-model)*
+- [Mobilenet v1](#5)  *caffe model 可以在[这儿](https://github.com/shicai/MobileNet-Caffe)下载*
- [Resnet50](#3)  *caffe model can be found [here->](https://github.com/KaimingHe/deep-residual-networks#models)*
+- [Mobilenet v2](#6)  *caffe model 可以在[这儿](https://github.com/shicai/MobileNet-Caffe)下载*
- [Resnet101](#4)  *caffe model can be found [here->](https://github.com/KaimingHe/deep-residual-networks#models)*
+- [RNN](#7)  *暂不支持*
- [Mobilenet v1](#5)  *caffe model can be found [here->](https://github.com/shicai/MobileNet-Caffe)*
- [Mobilenet v2](#6)  *caffe model can be found [here->](https://github.com/shicai/MobileNet-Caffe)*
- [RNN](#7)  *not support yet*
-We tested them on single-GPU with single-thread.
 ### <span id = '1'>VGG16 </span>
@@ -162,9 +157,9 @@ We tested them on single-GPU with single-thread.
 | 8 | 421 | 351 |
 | 32 | 637 | 551 |
-## How to run those Benchmark models?
+## How to run those Benchmark models
-> 1. At first, you should parse the caffe model with [`external converter`](https://github.com/PaddlePaddle/Anakin/blob/b95f31e19993a192e7428b4fcf852b9fe9860e5f/docs/Manual/Converter_en.md).
+1. 首先, 使用[External Converter](./convert_paddle_to_anakin.md)对caffe model 进行转换
-> 2. Switch to *source_root/benchmark/CNN* directory. Use 'mkdir ./models' to create ./models and put anakin models into this file.
+2. 然后跳转至 *source_root/benchmark/CNN* 目录下，使用 'mkdir ./models'创建存放模型的目录，并将转换好的Anakin模型放在该目录下
-> 3. Use command 'sh run.sh', we will create files in logs to save model log with different batch size. Finally, model latency summary will be displayed on the screen.
+3. 运行脚本 `sh run.sh`，运行结束后，该模型的运行时间将会显示到终端上
-> 4. If you want to get more detailed information with op time, you can modify CMakeLists.txt with setting `ENABLE_OP_TIMER` to `YES`, then recompile and run. You will find detailed information in  model log file.
+4. 如果你想获取每层OP的运行时间，你只用将 CMakeLists.txt 中的`ENABLE_OP_TIMER` 设置为 `YES` 即可
--- a/doc/fluid/advanced_usage/deploy/anakin_parser_design.md
+++ b/doc/fluid/advanced_usage/deploy/anakin_parser_design.md
+# Parser的编写指南
+  Parser是一种网络框架转换工具，将其他框架如Caffe、TensorFlow的网络结构转换为Anakin网络结构图，然后对转换后的Anakin图进行预测处理
+  本文主要介绍Parser功能的框架结构和根据已有的网络框架改写Parser，以解析得到Anakin框架图，进行Anakin预测
+  下文称Anakin为AK，运算操作为OP,本文参考TensorFlow的Parser编写,参考代码目录为tools/external_converter_v2/parser/tensorflow
+## Parser的功能和执行流程
+  Parser功能是将其他深度学习框架(如Caffe，TensorFlow，ONNX)的模型转换为AK的模型
+  对AK的作用是屏蔽不同框架间的差异，这种差异包括模型存储、OP的定义、图差异
+  因此Parser的执行流程是：
+  - 将源框架的模型载入Parser
+  - 将原框架的图解析为AK中的OP节点和OP节点的连接关系
+  - 进行OP定义的转换和图优化
+  - 将符合AK标准的图写入protobuf
+## Parser的目录结构
+  Parser工具在tools/external_converter_v2/parser目录下
+  Parser的目录主要包含3部分:
+  - Parser的运行配置文件包括 config.py, config.yaml, converter.py, 用户只用执行converter.py，Parser就会按照config.yaml中的声明去解析模型
+  - Parser的公共定义，包括operations,pbs,proto三个目录。Parser的公共工具函数 graph*.py logger.py utils.py
+  - 各个框架对应的Parser，其目录的命名方式为框架名,如Caffe, TensorFlow
+## Parser的编写流程
+### 1、声明你的Parser
+  - 在config.yaml中填写你的Parser运行的必要信息，包括ProtoPath和SavePath等。OPTIONS/Framework改为你的Parser的类型，TARGET下填写对应的参数列表
+  - 添加你的Parser目录，如TensorFlow，导出你的Parser符号。注意，Parser的框架默认调用你的Parser类中的__call__方法来执行解析，这个方法需要返回填写完毕的GraphProtoIO对象
+  - 在config.py中Configuration下__init__函数中增加对你的Parser的调用，将yaml中读取的配置信息传给你的Parser，此处调用你的Parser中的__init__方法
+### 2、添加你的Parser主体
+  可以参考parser_tf.py
+  - 你需要在Parser主体构造时获取模型路径，input，ouput名字等解析必须的信息
+  - 在__call__中返回填写好的GraphProtoIO对象，该对象为填写protobuf的辅助工具
+  - 建议Parser的解析过程分成三部分，先将原框架的模型载入并转换为一种便于修改的中间的图形式；对中间图修改使得图满足AK的要求；将满足要求的中间图利用NodeProtoIO和GraphProtoIO这两个辅助类填入protobuf，具体细节可以参考parser_tf
+### 3、读取原始模型，并将模型转换为中间类型
+  可以参考parse_tf_2_med.py
+  - 这一步与原始框架结合紧密，你可能需要import原始框架的工具函数来完成模型的裁剪、固定、加载等操作
+  - 大部分的框架都是使用tensor来连接OP的，但AK中是OP直接相连，这点需要注意
+  - AK的shape默认是4维的，有的参数的shape不足4维，需要Parser补全
+### 4、对中间类型的图进行优化
+  可以参考med_graph.py
+  - 由于AK不支持普通OP多输出的情况，需要在多输出的OP后面补上Splite类型的OP节点
+  - 对于Convlution后接Batchnorm这种可以合并又不会导致OP定义改变的情况，需要Parser在这一步做掉
+  - AK规定所有的输入类型OP的名字必须是input_x这种命名方式，其中x为从0开始的数字
+### 5、将中间类型的图以GraphProtoIO的方式保存
+  可以参考parse_med_2_ak.py 和 parser_tf.py
+  - 你首先需要构造Node节点，Node节点的名字是OP的名字(如conv2d_1_a_0)，Node节点中OP成员变量的名字是Node节点的类型(如Convlution)
+  - Node节点需要按照输入的顺序用Node的add_in方法填写输入Node的名字，add_out方法按顺序填写输出Node的名字
+  - 通过调用GraphProtoIO的add_node方法将构造好的Node的__call__方法的返回值作为参数，将Node节点加入AK的graph中
+  - 调用GraphProtoIO的add_in_edge和add_out_edge完成AK图中OP间关系的构建。如果Node中的in和out填写正确，你也可以通过调用GraphProtoIO的format_edge_from_nodes方法完成这个工作
+  - AK的模型需要Parser给出输出Node的名字，使用GraphProtoIO的add_out方法填写输出Node的名字
+### 6、检查模型解析的正确性
+  - 默认的config.yaml配置会在解析结束后启动一个web服务器展示解析后的AK模型图，你需要对比原框架的模型图进行验证。这里最容易出现的错误是边关系的错误，表现为图非常乱，你需要逐条边地检查错误；第二个容易出错的地方是参数漏填，需要你检查OP中的属性
+  - 将解析后的模型放入AK中执行，使用相同的输入，原框架与AK有相同的输出。若果输出不一致可以开启AK的DEBUG模式，在net.cpp中将没层的输出打印；如果AK在解析阶段陷入死循环，大概率是边的关系出错
+## 如何添加新OP
+  - 需要在AK代码中加入该OP的实现，包括对应设备Saber的OP，Saber单测和Framework中的OP
+  - 根据Framework的OP在ops.py中添加Parser公共的OP定义
+  - 从原框架的模型中解析出该OP的节点，并在AK的graph中填入该OP节点
+## AK模型与其他框架模型的不同之处
+  + AK模型与caffe的模型相似，因此与其他模型有很多不同的地方，需要Parser在解析过程中处理掉
+  + 最大的不同是与PaddlePaddle或TensorFlow的模型中OP粒度很细，而AK的模型中OP的粒度很粗（目的是为了节省访存开销）。这会导致解析这些框架的模型时存在大量的合并操作
+  + 其次是OP的行为不同,如TensorFlow中Pooling默认都是exclusive的，而AK中是inclusive的。TensorFlow的Padding，如果是奇数pad，则在右方和下方多pad，而AK是在左方和上方多Pad
+  + AK默认的布局是NCHW，如果其他框架的OP是其他形式的，需要在Parser中做weights的布局转换，并处理reshape的问题
+  + AK中有的weights是需要预先做布局转换的(如GRU，LSTM)，AK中也支持同一OP的不同算法，如(GRU，Pooling)
--- a/doc/fluid/advanced_usage/deploy/anakin_run_on_arm.md
+++ b/doc/fluid/advanced_usage/deploy/anakin_run_on_arm.md
+## ARM 源码编译 Anakin ##
+目前Anakin支持ARM Android平台，采用Android NDK交叉编译工具链，已在mac os和centos上编译和测试通过。
+### 安装概览 ###
+* [系统需求](#0001)
+* [安装第三方依赖](#0002)
+* [Anakin源码编译](#0003)
+* [验证安装](#0004)
+### <span id = '0001'> 1. 系统需求 </span> ###
+*  宿主机: linux, mac
+*  cmake 3.8.2+
+*  Android NDK r14, Linux 版本[从这里下载](https://dl.google.com/android/repository/android-ndk-r14b-linux-x86_64.zip)
+### <span id = '0002'> 2. 安装第三方依赖 </span> ###
+- 2.1 protobuf3.4.0
+  源码从这里[下载](https://github.com/google/protobuf/releases/tag/v3.4.0)
+  - 2.1.1 为宿主机编译protobuf
+  ```bash
+    $ tar -xzf protobuf-3.4.0.tar.gz
+    $ cd protobuf-3.4.0
+    $ ./autogen.sh
+    $ ./configure
+    $ make
+    $ make check
+    $ make install
+  ```
+  上述 $make install 执行后，可在 `/usr/local/include/google` 找到 libprotobuf 所需的头文件,将整个google文件夹拷贝至Anakin/third-party/arm-android/protobuf/下, 然后将已经生成文件清除。
+  如有问题，请点[这里](https://github.com/google/protobuf/blob/v3.4.0/src/README.md)。
+  ```bash
+    $ make distclean
+  ```
+  - 2.1.1 交叉编译Android`armeabi-v7a`的protobuf，注意设置ANDROID_NDK的路径，以及ARCH_ABI、HOSTOSN的值
+  ```bash
+    $ export ANDROID_NDK=your_ndk_path
+    $ ARCH_ABI="arm-linux-androideabi-4.9"
+    $ HOSTOSN="darwin-x86_64"
+    $ export SYSROOT=$ANDROID_NDK/platforms/android-9/arch-arm
+    $ export PREBUILT=$ANDROID_NDK/toolchains/$ARCH_ABI
+    $ export LDFLAGS="--sysroot=$SYSROOT"
+    $ export LD="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/arm-linux-androideabi/bin/ld $LDFLAGS"
+    $ export LIBS="-llog $ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/libs/armeabi-v7a/libgnustl_static.a"
+    $ export CPPFLAGS=""
+    $ export INCLUDES="-I$ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/include/ -I$ANDROID_NDK/platforms/android-9/arch-arm/usr/include/ -I$ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/libs/armeabi-v7a/include/"
+    $ export CXXFLAGS="-march=armv7-a -mfloat-abi=softfp -DGOOGLE_PROTOBUF_NO_RTTI --sysroot=$SYSROOT"
+    $ export CCFLAGS="$CXXFLAGS"
+    $ export CXX="$PREBUILT/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-g++ $CXXFLAGS"
+    $ export CC="$CXX"
+    $ export RANLIB="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-ranlib"
+    $ ./autogen.sh
+    $ ./configure --host=arm-linux-androideabi --with-sysroot=$SYSROOT --enable-cross-compile --with-protoc=protoc --disable-shared CXX="$CXX" CC="$CC" LD="$LD"
+    $ make
+  ```
+  编译生成 *.a 静态库，若希望编译*.so 动态链接库 ，请在./configure参数中改--disable-shared为--disable-static --enable-shared
+  生成文件在`src/.libs/`下，将生成的文件拷贝至`Anakin/third-party/arm-android/protobuf/lib`下
+  在[cmake](../../cmake/find_modules.cmake)中更新`ARM_RPOTO_ROOT`的路径。
+  ```cmake
+    set(ARM_RPOTO_ROOT "${CMAKE_SOURCE_DIR}/third-party/arm-android/protobuf")
+  ```
+- 2.2 opencv 2.4.3+(optional)
+    Anakin只在examples示例中使用opencv
+    Android系统的opencv从[这里下载](https://opencv.org/releases.html)
+    解压后将 `3rdparty/libs/armeabi-v7a`中的库文件拷贝到`libs/armeabi-v7a`
+    在[cmake](../../cmake/find_modules.cmake)中搜索`anakin_find_opencv`
+    并设置 `include_directories` 和 `LINK_DIRECTORIES`为自己安装的库的路径
+    ```cmake
+      include_directories(${CMAKE_SOURCE_DIR}/third-party/arm-android/opencv/sdk/native/jni/include/)
+      LINK_DIRECTORIES(${CMAKE_SOURCE_DIR}/third-party/arm-android/opencv/sdk/native/libs/armeabi-v7a/)
+    ```
+### <span id = '0003'> 3. Anakin源码编译 </span> ###
+#### 编译Android版本
+克隆[源码](https://github.com/PaddlePaddle/Anakin/tree/arm)
+```bash
+  cd your_dir
+  git clone https://github.com/PaddlePaddle/Anakin.git
+  cd Anakin
+  git fetch origin arm
+  git checkout arm
+```
+修改`android_build.sh`
+  - 修改NDK路径
+  ```bash
+    #modify "your_ndk_path" to your NDK path
+    export ANDROID_NDK=your_ndk_path
+  ```
+  - 修改ARM 处理器架构
+    对于32位ARM处理器, 将ANDROID_ABI 设置为 `armeabi-v7a with NEON`
+    对于64位ARM处理器, 可以将ANDROID_ABI 设置为 `armeabi-v7a with NEON`或者`arm64-v8a`
+    目前我们只支持 `armeabi-v7a with NEON`；`arm64-v8a` 还在开发中
+  ```bash
+      -DANDROID_ABI="armeabi-v7a with NEON"
+  ```
+- 设置Android API
+  根据Android系统的版本设置API level， 例如API Level 21 -> Android 5.0.1
+  ```bash
+      -DANDROID_NATIVE_API_LEVEL=21
+  ```
+- 选择编译静态库或动态库
+  设置`BUILD_SHARED=NO`编译静态库
+  设置`BUILD_SHARED=YES`编译动态库
+  ```bash
+      -DBUILD_SHARED=NO
+  ```
+- OpenMP多线程支持
+  设置`USE_OPENMP=YES`开启OpenMP多线程
+  ```bash
+      -DUSE_OPENMP=YES
+  ```
+- 编译单测文件
+  设置`BUILD_WITH_UNIT_TEST=YES`将会编译单测文件
+  ```bash
+      -DBUILD_WITH_UNIT_TEST=YES
+  ```
+- 编译示例文件
+  设置`BUILD_EXAMPLES=YES`将会编译示例文件
+    ```bash
+        -DBUILD_EXAMPLES=YES
+    ```
+- 开启opencv
+  如果使用opencv，设置`USE_OPENCV=YES`
+  ```bash
+    -DUSE_OPENCV=YES
+  ```
+- 开始编译
+  运行脚本 `android_build.sh` 将自动编译Anakin
+  ```bash
+      ./android_build.sh
+  ```
+### <span id = '0004'> 4. 验证安装 </span> ###
+编译好的库会放在目录`${Anakin_root}/output`下；
+编译好的单测文件会放在`${Anakin_root}/output/unit_test`目录下；
+编译好的示例文件会放在`${Anakin_root}/output/examples`目录下。
+对于Android系统，打开设备的调试模式，通过ADB可以访问的目录是`data/local/tmp`，通过ADB push将测试文件、模型和数据发送到设备目录， 运行测试文件。
--- a/doc/fluid/advanced_usage/deploy/anakin_tutorial.md
+++ b/doc/fluid/advanced_usage/deploy/anakin_tutorial.md
--- a/doc/fluid/advanced_usage/deploy/convert_paddle_to_anakin.md
+++ b/doc/fluid/advanced_usage/deploy/convert_paddle_to_anakin.md
 # 模型转换指南
-Anakin 支持不同框架的模型预测。但由于格式的差别，Anakin 需要您预先转换模型。本文档介绍如何转换模型。
+Anakin 支持不同框架的模型预测。但由于格式的差别，Anakin 需要您预先转换模型, 本文档介绍如何转换模型。
 ## 简介
-Anakin 模型转换器输入支持 Caffe 和 Fluid 两种格式的预测模型，模型包含网络结构（model 或 prototxt）和权重参数（param 或 caffemodel）。   
+Anakin 模型转换器输入支持 Caffe 和 Paddle 两种格式的预测模型，模型包含网络结构（model 或 prototxt）和权重参数（param 或 caffemodel）。
-模型转换的输出是一个 bin 文件，它作为 Anakin 框架的 graph 参数导入。   
+模型转换的输出是一个 bin 文件，它作为 Anakin 框架的 graph 参数导入。
-您还可以使用模型转换器的 launch board 功能生成网络结构的 HTML 预览。   
+您还可以使用模型转换器的 launch board 功能生成网络结构的 HTML 预览。
 ## 系统要求
@@ -22,7 +22,7 @@ Anakin 模型转换器输入支持 Caffe 和 Fluid 两种格式的预测模型
 ## 用法
 ### 1、环境
-转换器所需的依赖标注于 *系统要求* 一节。
+转换器所需的依赖标注于*系统要求*一节。
 ### 2、配置
 您需要对 *config.yaml* 文件进行修改以告知您的需求。工程中给出了 *config.yaml* 示例，下面作进一步说明。
@@ -30,7 +30,7 @@ Anakin 模型转换器输入支持 Caffe 和 Fluid 两种格式的预测模型
 #### config.yaml
 ```bash
 OPTIONS:
-    Framework: CAFFE       # 依框架类型填写 CAFFE 或 FLUID
+    Framework: CAFFE       # 依框架类型填写 CAFFE 或 Paddle
    SavePath: ./output     # 转换结束后模型的保存位置
    ResultName: googlenet  # 输出模型的名字
    Config:
@@ -53,13 +53,13 @@ TARGET:
        PrototxtPath: /path/to/your/googlenet.prototxt
        ModelPath: /path/to/your/googlenet.caffemodel
-    FLUID:
+    Paddle:
-        # 当 Framework 为 FLUID 时需填写
+        # 当 Framework 为 Paddle 时需填写
        Debug: NULL
        ProtoPaths:
            - /
-        PrototxtPath: /path/to/fluid/inference_model
+        PrototxtPath: /path/to/paddle/inference_model
-        ModelPath: /path/to/fluid/inference_model
+        ModelPath: /path/to/paddle/inference_model
 	# ...
 ```
@@ -68,6 +68,6 @@ TARGET:
 ### 4、预览
-最后一步，就是在浏览器中查看令人振奋的转换结果！网址是在 *config.yaml* 中配置的，例如 http://0.0.0.0:8888 。
+最后一步，就是在浏览器中查看转换结果！网址是在 *config.yaml* 中配置的，例如 http://0.0.0.0:8888 。
 > 注意：若您使用了默认的 IP 地址 0.0.0.0，请在预览时使用真实的服务器地址 real_ip:port 替代它。
--- a/doc/fluid/advanced_usage/deploy/how_to_support_new_device_in_anakin.md
+++ b/doc/fluid/advanced_usage/deploy/how_to_support_new_device_in_anakin.md
@@ -52,7 +52,7 @@ endif()
 #cmakedefine USE_TNEW_PLACE
 ```
-* 其他依赖和编译选项    
+* 其他依赖和编译选项
 修改`cmake`目录下的`compiler_options.cmake`和`find_modules.cmake`
@@ -231,7 +231,7 @@ struct TargetWrapper<TNEW, __xxx_target> { //根据TNEW的具体类型修改__xx
 4. 在`impl/`目录下添加设备目录和实现
 在`saber/core/impl`目录下添加设备目录`tnew`。
-* 实现`TargetWrapper<TNEW, __xxx_target>`结构体中各函数的定义。    
+* 实现`TargetWrapper<TNEW, __xxx_target>`结构体中各函数的定义。
 如果`TargetWrapper<TNEW, __xxx_target>`的实现与默认的模板类一致，则不用特化出该类。
 ```c++
@@ -243,11 +243,11 @@ void TNEW_API::get_device_count(int &count) {
 void TNEW_API::set_device(int id){
    // add implementation
 }
 void TNEW_API::mem_alloc(void** ptr, size_t n){
    // add implementation
 }
 void TNEW_API::mem_free(void* ptr){
    if(ptr != nullptr){
        // add implementation
@@ -275,7 +275,7 @@ void Device<TNEW>::get_info() {
 ### 在`saber/funcs`中实现设备相关的op
-参考[如何增加新的Operator](addCustomOp.md)
+参考[如何增加新的Operator](./how_to_add_anakin_op.md)
 ## <span id = '0003'> 在`framework`中添加设备的具体化或实例化 </span> ##
@@ -329,7 +329,7 @@ public:
 	typedef Tensor4d<TNEW, DataTypeRecover<Dtype>::type> type;
 	PBlock() {
-		_inner_tensor = std::make_shared<type>(); 
+		_inner_tensor = std::make_shared<type>();
 	}
 	...
 }
@@ -348,7 +348,7 @@ struct target_host<saber::TNEW> {
 ### `framework/graph`
 * `graph.cpp`中添加实例化
 ```c++
  #ifdef USE_TNEW_PLACE
  template class Graph<TNEW, AK_FLOAT, Precision::FP32>;
@@ -360,7 +360,7 @@ struct target_host<saber::TNEW> {
 ### `framework/model_parser`
 * `parser.cpp`中添加实例化
 ```c++
  #ifdef USE_TNEW_PLACE
  template
@@ -372,7 +372,7 @@ struct target_host<saber::TNEW> {
  template
  Status load<TNEW, AK_FLOAT, Precision::INT8>(graph::Graph<TNEW, AK_FLOAT, Precision::INT8>* graph,
          const char* model_path);
  template
  Status save<TNEW, AK_FLOAT, Precision::FP32>(graph::Graph<TNEW, AK_FLOAT, Precision::FP32>* graph,
          std::string& model_path);
@@ -382,7 +382,7 @@ struct target_host<saber::TNEW> {
  template
  Status save<TNEW, AK_FLOAT, Precision::INT8>(graph::Graph<TNEW, AK_FLOAT, Precision::INT8>* graph,
          std::string& model_path);
  template
  Status load<TNEW, AK_FLOAT, Precision::FP32>(graph::Graph<TNEW, AK_FLOAT, Precision::FP32>* graph,
          std::string& model_path);
@@ -392,7 +392,7 @@ struct target_host<saber::TNEW> {
  template
  Status load<TNEW, AK_FLOAT, Precision::INT8>(graph::Graph<TNEW, AK_FLOAT, Precision::INT8>* graph,
          std::string& model_path);
  template
  Status save<TNEW, AK_FLOAT, Precision::FP32>(graph::Graph<TNEW, AK_FLOAT, Precision::FP32>* graph,
          const char* model_path);

--- a/doc/fluid/advanced_usage/deploy/index_anakin.rst
+++ b/doc/fluid/advanced_usage/deploy/index_anakin.rst
@@ -10,12 +10,13 @@ Anakin 预测引擎
   install_anakin.md
   convert_paddle_to_anakin.md
-   run_anakin_on_arm.md
   anakin_tutorial.md
+   anakin_run_on_arm.md
   anakin_example.md
   anakin_gpu_benchmark.md
   anakin_arm_benchmark.md
 开发文档
 ~~~~~~~
@@ -24,3 +25,4 @@ Anakin 预测引擎
   how_to_add_anakin_op.md
   how_to_support_new_device_in_anakin.md
+   anakin_parser_design.md
--- a/doc/fluid/advanced_usage/deploy/install_anakin.md
+++ b/doc/fluid/advanced_usage/deploy/install_anakin.md
-## 从源码编译安装Anakin ##
+## 源码编译安装Anakin ##
 我们已经在CentOS 7.3上成功的安装和测试了Anakin，对于其他操作系统，我们将很快支持。
@@ -6,7 +6,7 @@
 * [在CentOS上安装 Anakin]()
 * [在Ubuntu上安装 Anakin]()
-* [在ARM上安装 Anakin](run_on_arm_ch.md)
+* [在ARM上安装 Anakin](./anakin_run_on_arm.md)
 * [验证安装]()
@@ -26,30 +26,37 @@
 #### 3. 编译支持NVIDIA GPU的Anakin ####
 - 3.1. 安装依赖
-  - 3.1.1 protobuf  
-    >$ git clone https://github.com/google/protobuf  
-    >$ cd protobuf  
-    >$ git submodule update --init --recursive  
-    >$ ./autogen.sh  
-    >$ ./configure --prefix=/path/to/your/insall_dir  
-    >$ make  
-    >$ make check  
-    >$ make install  
-    >$ sudo ldconfig
+  - 3.1.1 protobuf
-    如安装protobuf遇到任何问题，请访问[这里](https://github.com/google/protobuf/blob/master/src/README.md)
+  ```
+    > git clone https://github.com/google/protobuf
+    > cd protobuf
+    > git submodule update --init --recursive
+    > ./autogen.sh
+    > ./configure --prefix=/path/to/your/insall_dir
+    > make
+    > make check
+    > make install
+    > sudo ldconfig
+  ```
+  如安装protobuf遇到任何问题，请访问[这里](https://github.com/google/protobuf/blob/master/src/README.md)
 - 3.2 CUDA Toolkit
-  - [CUDA 8.0](https://developer.nvidia.com/cuda-zone) or higher. 具体信息参见[NVIDIA's documentation](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/).
-  - [cuDNN v7](https://developer.nvidia.com/cudnn). 具体信息参见[NVIDIA's documentation](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/). 
+  - [CUDA 8.0](https://developer.nvidia.com/cuda-zone) or higher, 具体信息参见[NVIDIA's documentation](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/).
+  - [cuDNN v7](https://developer.nvidia.com/cudnn), 具体信息参见[NVIDIA's documentation](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/).
 - 3.3  编译Anakin
-  >$ git clone https:/xxxxx  
-  >$ cd anakin  
-  >$ mkdir build  
-  >$ camke ..  
-  >$ make
+  ```
+    > git clone https:/xxxxx
+    > cd anakin
+    > mkdir build
+    > camke ..
+    > make
+  ```
 #### 4. 编译支持AMD GPU的Anakin ####
@@ -63,7 +70,8 @@
 ### 在ARM上安装 Anakin ###
-暂时还不支持
+请参考[ARM安装文档](./anakin_run_on_arm.md)
 ### 验证安装 ###
-we are coming soon...
+安装完成后，如果没有报错信息，你可以通过运行 `output/unit_test`路径下的单测示例验证是否编译成功。
--- a/doc/fluid/advanced_usage/deploy/run_anakin_on_arm.md
+++ b/doc/fluid/advanced_usage/deploy/run_anakin_on_arm.md
-## 源码编译 Anakin ##
+## ARM 源码编译 Anakin ##
 目前Anakin支持ARM Android平台，采用Android NDK交叉编译工具链，已在mac os和centos上编译和测试通过。
@@ -12,37 +12,44 @@
 ### <span id = '0001'> 1. 系统需求 </span> ###
-*  宿主机: linux, mac    
+*  宿主机: linux, mac
-*  cmake 3.8.2+    
+*  cmake 3.8.2+
 *  Android NDK r14, Linux 版本[从这里下载](https://dl.google.com/android/repository/android-ndk-r14b-linux-x86_64.zip)
 ### <span id = '0002'> 2. 安装第三方依赖 </span> ###
- 2.1 protobuf3.4.0     
+- 2.1 protobuf3.4.0
-   源码从这里[下载](https://github.com/google/protobuf/releases/tag/v3.4.0)    
- - 2.1.1 为宿主机编译protobuf     
+   源码从这里[下载](https://github.com/google/protobuf/releases/tag/v3.4.0)
- ```bash
-   $ tar -xzf protobuf-3.4.0.tar.gz  
+ - 2.1.1 为宿主机编译protobuf
-   $ cd protobuf-3.4.0   
-   $ ./autogen.sh  
+```bash
-   $ ./configure    
+   $ tar -xzf protobuf-3.4.0.tar.gz
-   $ make  
+   $ cd protobuf-3.4.0
-   $ make check   
+   $ ./autogen.sh
+   $ ./configure
+   $ make
+   $ make check
   $ make install
-   ```
+```
-   上述 $make install 执行后，可在 /usr/local/include/google 找到 libprotobuf 所需的头文件,将整个google文件夹拷贝至Anakin/third-party/arm-android/protobuf/下，
-   如有问题，请点[这里](https://github.com/google/protobuf/blob/v3.4.0/src/README.md)。
+上述 $make install 执行后，可在 /usr/local/include/google 找到 libprotobuf 所需的头文件，将整个google文件夹拷贝至Anakin/third-party/arm-android/protobuf/下
-   然后将已经生成文件清除。
- ```bash
+如有问题，请点[这里](https://github.com/google/protobuf/blob/v3.4.0/src/README.md)，然后将已经生成文件清除。
+```bash
   $ make distclean
-   ```
+```
- - 2.1.1 交叉编译Android`armeabi-v7a`的protobuf，注意设置ANDROID_NDK的路径，以及ARCH_ABI、HOSTOSN的值，   
+ - 2.1.1 交叉编译Android`armeabi-v7a`的protobuf，注意设置ANDROID_NDK的路径，以及ARCH_ABI、HOSTOSN的值
 ```bash
-   $ export ANDROID_NDK=your_ndk_path 
+   $ export ANDROID_NDK=your_ndk_path
   $ ARCH_ABI="arm-linux-androideabi-4.9"
   $ HOSTOSN="darwin-x86_64"
-   $ export SYSROOT=$ANDROID_NDK/platforms/android-9/arch-arm  
+   $ export SYSROOT=$ANDROID_NDK/platforms/android-9/arch-arm
   $ export PREBUILT=$ANDROID_NDK/toolchains/$ARCH_ABI
   $ export LDFLAGS="--sysroot=$SYSROOT"
   $ export LD="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/arm-linux-androideabi/bin/ld $LDFLAGS"
@@ -53,34 +60,38 @@
   $ export CCFLAGS="$CXXFLAGS"
   $ export CXX="$PREBUILT/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-g++ $CXXFLAGS"
   $ export CC="$CXX"
-   $ export RANLIB="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-ranlib"  
+   $ export RANLIB="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-ranlib"
-   $ ./autogen.sh  
+   $ ./autogen.sh
-   $ ./configure --host=arm-linux-androideabi --with-sysroot=$SYSROOT --enable-cross-compile --with-protoc=protoc --disable-shared CXX="$CXX" CC="$CC" LD="$LD"  
+   $ ./configure --host=arm-linux-androideabi --with-sysroot=$SYSROOT --enable-cross-compile --with-protoc=protoc --disable-shared CXX="$CXX" CC="$CC" LD="$LD"
   $ make
-  ```
+```
-  编译生成 *.a 静态库，若希望编译*.so 动态链接库 ，请在./configure参数中改--disable-shared为--disable-static --enable-shared。  
+编译生成 *.a 静态库，若希望编译*.so 动态链接库 ，请在./configure参数中改--disable-shared为--disable-static --enable-shared。
-  生成文件在src/.libs/下，将生成的文件拷贝至Anakin/third-party/arm-android/protobuf/lib下。  
+生成文件在src/.libs/下，将生成的文件拷贝至Anakin/third-party/arm-android/protobuf/lib下。
-  在[cmake](../../cmake/find_modules.cmake)中更新`ARM_RPOTO_ROOT`的路径。        
+在[cmake](../../cmake/find_modules.cmake)中更新`ARM_RPOTO_ROOT`的路径。
-  ```cmake
+```cmake
  set(ARM_RPOTO_ROOT "${CMAKE_SOURCE_DIR}/third-party/arm-android/protobuf")
-  ```
+```
- 2.2 opencv 2.4.3+(optional)    
+- 2.2 opencv 2.4.3+(optional)
-    Anakin只在examples示例中使用opencv   
-    Android系统的opencv从[这里下载](https://opencv.org/releases.html)    
+  Anakin只在examples示例中使用opencv
-    解压后将 `3rdparty/libs/armeabi-v7a`中的库文件拷贝到`libs/armeabi-v7a`    
+  Android系统的opencv从[这里下载](https://opencv.org/releases.html)
-    在[cmake](../../cmake/find_modules.cmake)中搜索`anakin_find_opencv`, 
+  解压后将 `3rdparty/libs/armeabi-v7a`中的库文件拷贝到`libs/armeabi-v7a`
-    并设置 `include_directories` 和 `LINK_DIRECTORIES`为自己安装的库的路径。   
+  在[cmake](../../cmake/find_modules.cmake)中搜索`anakin_find_opencv`,
-    ```cmake
+  并设置 `include_directories` 和 `LINK_DIRECTORIES`为自己安装的库的路径。
+  ```cmake
    include_directories(${CMAKE_SOURCE_DIR}/third-party/arm-android/opencv/sdk/native/jni/include/)
    LINK_DIRECTORIES(${CMAKE_SOURCE_DIR}/third-party/arm-android/opencv/sdk/native/libs/armeabi-v7a/)
-    ```
+  ```
 ### <span id = '0003'> 3. Anakin源码编译 </span> ###
 #### 编译Android版本
-   克隆[源码](https://github.com/PaddlePaddle/Anakin/tree/arm)
+  克隆[源码](https://github.com/PaddlePaddle/Anakin/tree/arm)
 ```bash
    cd your_dir
    git clone https://github.com/PaddlePaddle/Anakin.git
@@ -88,64 +99,87 @@
    git fetch origin arm
    git checkout arm
  ```
-  修改`android_build.sh`    
- 修改NDK路径    
+  修改`android_build.sh`
+- 修改NDK路径
  ```bash
    #modify "your_ndk_path" to your NDK path
    export ANDROID_NDK=your_ndk_path
  ```
- 修改ARM 处理器架构     
-  对于32位ARM处理器, 将ANDROID_ABI 设置为 `armeabi-v7a with NEON`， 
+- 修改ARM 处理器架构
-  对于64位ARM处理器, 可以将ANDROID_ABI 设置为 `armeabi-v7a with NEON`或者`arm64-v8a`。        
-  目前我们只支持 `armeabi-v7a with NEON`；`arm64-v8a` 还在开发中。      
+  对于32位ARM处理器, 将ANDROID_ABI 设置为 `armeabi-v7a with NEON`，
+  对于64位ARM处理器, 可以将ANDROID_ABI 设置为 `armeabi-v7a with NEON`或者`arm64-v8a`。
+  目前我们只支持 `armeabi-v7a with NEON`；`arm64-v8a` 还在开发中。
  ```bash
      -DANDROID_ABI="armeabi-v7a with NEON"
  ```
- 设置Android API    
-  根据Android系统的版本设置API level， 例如API Level 21 -> Android 5.0.1    
+- 设置Android API
+  根据Android系统的版本设置API level， 例如API Level 21 -> Android 5.0.1
  ```bash
      -DANDROID_NATIVE_API_LEVEL=21
  ```
- 选择编译静态库或动态库    
+- 选择编译静态库或动态库
-  设置`BUILD_SHARED=NO`编译静态库    
-  设置`BUILD_SHARED=YES`编译动态库    
+  设置`BUILD_SHARED=NO`编译静态库
+  设置`BUILD_SHARED=YES`编译动态库
  ```bash
      -DBUILD_SHARED=NO
  ```
- OpenMP多线程支持    
+- OpenMP多线程支持
-  设置`USE_OPENMP=YES`开启OpenMP多线程    
+  设置`USE_OPENMP=YES`开启OpenMP多线程
  ```bash
      -DUSE_OPENMP=YES
  ```
- 编译单测文件    
+- 编译单测文件
-  设置`BUILD_WITH_UNIT_TEST=YES`将会编译单测文件    
-    ```bash
+  设置`BUILD_WITH_UNIT_TEST=YES`将会编译单测文件
-        -DBUILD_WITH_UNIT_TEST=YES
-    ```
+  ```bash
+     -DBUILD_WITH_UNIT_TEST=YES
- 编译示例文件    
+  ```
-  设置`BUILD_EXAMPLES=YES`将会编译示例文件    
-    ```bash
+- 编译示例文件
-        -DBUILD_EXAMPLES=YES
-    ```
+  设置`BUILD_EXAMPLES=YES`将会编译示例文件
- 开启opencv    
+  ```bash
-  如果使用opencv，设置`USE_OPENCV=YES`    
+     -DBUILD_EXAMPLES=YES
-    ```bash
+  ```
-        -DUSE_OPENCV=YES
-    ```
+- 开启opencv
- 开始编译    
+  如果使用opencv，设置`USE_OPENCV=YES`
-  运行脚本 `android_build.sh` 将自动编译Anakin     
+  ```bash
+    -DUSE_OPENCV=YES
+  ```
+- 开始编译
+  运行脚本 `android_build.sh` 将自动编译Anakin
  ```bash
      ./android_build.sh
  ```
-### <span id = '0004'> 4. 验证安装 </span> ###    
+### <span id = '0004'> 4. 验证安装 </span> ###
-  编译好的库会放在目录`${Anakin_root}/output`下；    
-  编译好的单测文件会放在`${Anakin_root}/output/unit_test`目录下；    
+  编译好的库会放在目录`${Anakin_root}/output`下
-  编译好的示例文件会放在`${Anakin_root}/output/examples`目录下。
+  编译好的单测文件会放在`${Anakin_root}/output/unit_test`目录下
-  对于Android系统，打开设备的调试模式，通过ADB可以访问的目录是`data/local/tmp`，通过ADB push将测试文件、模型和数据发送到设备目录， 运行测试文件。
+  编译好的示例文件会放在`${Anakin_root}/output/examples`目录下
+  对于Android系统，打开设备的调试模式，通过ADB可以访问的目录是`data/local/tmp`，通过ADB push将测试文件、模型和数据发送到设备目录，运行测试文件。