update_releasenote_1.4 (#828)

925bd9de · Cheerego · GitHub · af0c7d7f · 925bd9de · 925bd9de
5 changed file
--- a/doc/fluid/index_cn.rst
+++ b/doc/fluid/index_cn.rst
@@ -15,4 +15,4 @@
    user_guides/index_cn.rst
    advanced_usage/index_cn.rst
    api_cn/index_cn.rst
-    release_note_cn.rst
+    release_note_cn.md
--- a/doc/fluid/index_en.rst
+++ b/doc/fluid/index_en.rst
@@ -8,5 +8,6 @@
  user_guides/index_en.rst
  advanced_usage/index_en.rst
  api/index_en.rst
+  release_note_en.md


--- a/doc/fluid/release_note_cn.md
+++ b/doc/fluid/release_note_cn.md
+# 版本说明
+
+## 目录
+
+* 重要更新
+* 基础框架
+    * 安装
+    * 中间表达IR和Pass方面的优化
+    * IO优化
+    * 执行优化
+    * 显存优化
+    * 完善CPU JITKernel
+    * Intel CPU底层计算优化
+    * 集成Intel nGraph图编译引擎
+    * 框架基础功能增强
+    * 动态图preview版基础功能完善
+* 预测引擎
+    * 服务器预测引擎
+    * 移动端预测引擎
+    * 部署工具
+* 分布式训练
+* 模型建设
+    * PaddleCV 智能视觉
+    * PaddleNLP智能文本处理
+    * PaddleRec智能推荐
+* 工具组件
+* BUG修复
+
+## 重要更新
+
+* 基础框架对训练速度和显存占用进行了全面优化，完整支持量化训练。初步集成了Intel nGraph，动态图preview版单机单卡基本功能完善。
+* 正式发布模型压缩工具包[PaddleSlim](https://github.com/PaddlePaddle/models/tree/develop/PaddleSlim)和模型预测服务[Paddle Serving](https://github.com/PaddlePaddle/Serving)，全面提升PaddlePaddle部署能力。
+* 优化分布式IO，增加远程文件系统流式读取能力。GPU多机多卡同步训练通过增加稀疏通信能力提升带宽不敏感训练能力，在低配网络带宽网络环境下，例如10G网络下，同步训练可提速10倍。
+* 更好支持K8S生态，提供工业生产环境下的Paddle-K8S-Operator支持；Kubeflow支持paddle-job。
+* 正式发布[视频识别工具集](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/video)，覆盖主流视频分类模型，包括Nonlocal、TSM 、Attention Cluster、NeXtVLAD、LSTM、StNet、TSN。
+* 新增中文语义表示模型[ERNIE](https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE)，在多项中文任务上相对 BERT精度绝对提升1-2个百分点。新增对话通用理解相关模型 DGU，支持5类对话任务，在3个公开数据集达到 SOTA 的效果。
+* 新增基于图神经网络的推荐模型[（Graph Neural Network）](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec/gnn)，并提供公开数据集下的benchmark效果。
+* 正式发布[PaddleHub](https://github.com/PaddlePaddle/PaddleHub)预训练模型管理工具，提供包括预训练模型管理、命令行一键式使用和迁移学习三大功能。旨在帮助用户更高效地管理模型并开展迁移学习的工作。
+* 正式发布[X2Paddle模型转换工具](https://github.com/PaddlePaddle/X2Paddle)，用户可以无损地将其他深度学习框架预测模型迁移至PaddlePaddle。
+
+## 基础框架
+
+* 安装
+    * 增加install\_check.run\_check()接口，对安装是否成功提供更完善的检查。
+* 中间表达IR和Pass方面的优化
+    * 完成IrGraph、IrNode、IrVarNode以及IrOpNode的封装，支持使用Python编写IR Pass。
+* IO优化
+    * PyReader接口优化：可通过新接口reader = fluid.io.PyReader (..., iterable=True, ...)创建for循环可迭代的reader，并通过feed方式将数据送入网络训练。
+* 执行优化
+    * 用户可设置with\_data\_parallel的places参数，指定在某些GPU卡上运行，从而支持单进程多训练任务执行。
+    * 优化了多卡执行器调度策略，在ResNet50和Transformer模型上验证速度提升8%~19%。
+    * 多卡情况下支持对AllReduce进行按分组Fuse，ResNet模型的多卡速度提升8%~30%（不同卡数提速有差异），Transformer模型的多卡速度提升4%左右。
+* 显存优化
+    * GC策略优化：Eager Deletion策略支持while\_op内部变量的及时删除；支持非全量Eager Deletion策略，用户可设置FLAGS\_memory\_fraction\_of\_eager\_deletion=0.xx控制即时删除内存/显存空间的百分比。
+    * Op优化：优化cross entropy、expand、layer\_norm、dropout等p的反向注册机制，去除无关变量依赖，提高框架显存性能。
+    * 新增两个FLAGS（FLAGS\_initial\_gpu\_memory\_in\_mb和FLAGS\_reallocate\_gpu\_memory\_in\_mb）来让用户指定初始显存池容量和再分配显存池容量。
+    * 调整inplace\_op\_pass策略，提高inplace的策略的覆盖率。
+    * 取消了在python端做activation op inplace优化的逻辑，统一到inplace\_op\_pass。
+    * 新增Memory Profile功能。
+* 完善CPU JITKernel
+    * 优化JITKernel的调用方式，添加Cache机制和获取所有相同类型函数的接口，方便开发者根据不同情况有选择的调用。
+    * 使用JITKernel优化SGD算法，在PyramidDNN模型下对应的OP部分速度提升44%，整体训练速度提升12%；使用JITKernel优化fused\_embedding\_seq\_pool，在PyramidDNN模型下对应op的反向算子速度提升18%， 整体训练速度提升6%。
+* Intel CPU底层计算优化
+    * MKLDNN升级至18，包含若干性能增强（如基于GEMM的卷积运算 / INT8卷积运算等）。
+    * 使用MKL优化GELU OP，OP性能提升至原来的3倍。
+    * 增强MKLDNN相关Kernel的单元测试。
+* 集成了Intel nGraph图编译引擎，为PaddlePaddle支持更多硬件后端提供了便利
+    * 通过ngraph\_engine OP将子图交由nGraph核心，经图优化后调度在CPU上执行。用环境变量FLAGS\_use\_ngraph=true即可在运行时调用nGraph。
+    * 支持ResNet50模型在CPU上的训练和预测。ResNet50在CPU上的性能，和基于MKLDNN的直接优化相比，预测和训练性能均有显著提升。
+* 框架基础功能增强
+    * 支持同步的Batch Norm操作；支持softmax设置axis; 新增spectral norm, rang, acos, asin, atanh操作；新增Npair Loss，用于特征学习。
+    * 框架中添加cosine\_decay学习率调整策略。
+    * 新增sampled\_softmax\_with\_cross\_entropy, 用于提升大词典下的训练效率。
+    * 支持SGD和Adam优化算法的fuse，在Transformer模型上，速度能够提升2%，在Cycle GAN模型上，速度能够提升6%。
+    * 加强lsmtp，支持cell内部裁剪、初始化cell state和hidden state。
+    * 加强adagrad，支持初始化累积动量。
+    * 支持Tensor使用\_\_getitem\_\_ 方式操作。
+    * 新增QuantizationFreezePass、ConvertToInt8Pass以及TransformForMobilePass。完整支持动态和静态两种量化训练方式及对应模型保存。
+* 动态图preview版基础功能完善：
+    * 基础功能：支持LRDecay，整体支持GPU单卡及CPU单机的模型训练和评估。
+    * API：公开动态图对应基础接口，重构现有的 Layers，增加对 GRU、LayerNorm、NCE、PRelu 等 Layers 的支持。
+    * 性能：在Resnet，Mnist模型上验证与静态图基本持平。
+    * 增加Transformer、MNIST、Se-Resnext 等模型的动态图实现。
+
+## 预测引擎
+
+### 服务器预测
+
+* 预测库整合PaddlePaddle/Anakin，统一接口提供高效预测能力。
+    * 支持Anakin GPU子图和CPU子图。
+    * Python预测接口支持Anakin子图。
+    * Resnet、VGG、Googlenet、Mobilenet、ShuffleNet、Faster RCNN、Yolo、SSD等模型实现显著预测加速。
+* 预测框架优化，小模型预测速度提升明显
+    * 增加runtime\_context\_cache\_pass，重点模型提升17%。
+    * 优化5个OP的infershape，重点模型提升13%。
+    * 完善ZeroCopy接口，避免使用AnalysisPredictor 时存在多余CPU拷贝。
+* INT8 量化预测持续加强
+    * 进一步完善通过TensorRT 支持INT8 量化，支持Alexnet、Googlenet、Vgg、Mobilenet、ShuffleNet等模型。优化调用TensorRT下的信息序列化反序列化，加快模型初始化速度。
+    * 实现基于C++ Pass的INT8量化框架。增加若干INT8 OP Kernel : Transpose, Contact, Requantize。通过微调MkldnnQuantizerConfig中的量化策略，用户可快速得到符合精度要求的INT8量化模型。INT8量化后的ResNet-50 / MobileNet v1模型，相比原始FP32模型，性能分别提升至7倍 / 3.0倍 （在支持AVX512-DL Boost指令集的至强 6271服务器上)。
+
+### 移动端预测
+
+* ARM CPU
+    * Paddle-mobile完成矩阵运算库sgemm和sgemv的重构和效率优化，在大部分模型上能获得10%〜100%以上的性能加速。
+    * 新增while、sequence\_expand、sequence\_pool、sequence\_softmax、gru\_unit、beam\_search和beam\_search\_decode等19个算子，以及对应大量的优化工作，支持attention-based端到端模型的预测。
+    * 新增winograd 的arm v8实现，在IOS上的v8的硬件上能取得更高的预测性能；winograd支持算子融合 ，保证算子融合后的效率更高。
+    * 新增kernel为3x3的滑窗直接卷积实现，在channel数较少时会比winograd和gemm效率更高。
+    * 完成kernel为3x3的depthwise convolution重构和优化，相比之前版本支持任意的padding、性能更优且计算结果更可靠。
+    * 完成kernel为5x5的depthwise convolution armv8版本的实现，NAS模型的预测效率提升30%以上。
+    * 完成反卷积conv2d\_transpose的效率优化。
+    * 新增基于图优化的精简内存复用策略，大部分模型能降低近50%的内存占用。对于ARM CPU已自动开启（FPGA和GPU暂不支持）。
+* ARM GPU
+    * Paddle-mobile完成kernel为1x1的卷积优化，MobileNet v1在高通Adreno GPU上平均预测性能提升35%。
+* Paddle Inference初步完成和Paddle-mobile、Anakin的接口统一，待进一步深度融合。
+
+### 部署工具
+
+* 模型压缩工具包PaddleSlim
+    * 剪切模型压缩策略：支持敏感度和uniform两种方式，支持vgg、resnet、mobilenet等多种类型的网络，支持用户自定义剪切范围。
+    * 量化训练模型压缩策略：支持动态和静态两种量化训练方式，支持对参数进行分channel量化或整体量化，支持以float类型模拟int8值域保存模型，支持以int8类型保存模型，支持以兼容paddle-mobile的格式保存模型。
+    * 蒸馏模型压缩策略：支持在teacher网络和student网络任意层添加组合loss，支持FSP Loss, L2 Loss, Softmax with Cross-entropy Loss。
+    * 其它功能：支持配置文件管理压缩任务超参数，支持多种压缩策略组合使用，蒸馏和剪切压缩过程支持checkpoints功能。
+
+* Paddle Serving
+
+    * 支持paddle inference远程部署。
+    * 服务端支持用户新增数据处理Operator，支持用户自定义预估逻辑，支持模型热加载功能。
+    * 客户端提供C++ SDK，供业务逻辑进行调用，支持自定义protobuf定制网络数据传输协议，A/B测试能力。
+    * 提供经典任务使用paddle serving的示例模板，包括文本分类，图像分类任务。
+    * 针对文本分类任务，给出延迟和吞吐的benchmark。
+
+## 分布式训练
+
+* 分布式IO优化
+    * Pipe Reader接口优化：在保持数据预处理灵活性的前提下，提供高效IO的方法。支持企业级Linux系统用户定制化，实现高性能IO组件，在离线数据预处理处进行统一维护。增强远程文件系统流式读取能力，支持数据载入内存模式、分布式打乱功能。
+* Executor与分布式IO的整合
+    * AsyncExecutor整合进入Executor，增加train\_from\_dataset/infer\_from\_dataset接口，支持基于Pipe Reader的训练，在保持多队列IO功能的前提下，支持用户自定义PipeLine程序，提供python端灵活处理数据的能力。
+* GPU多机多卡同步训练增加带宽不敏感训练能力
+    * GPU同步训练增加稀疏通信能力，支持sparse all reduce。
+    * 通过通信稀疏度的控制，在算法层面保障模型收敛，并增加DGCOptimizer。
+    * 通过在resnet50 on imagenet上进行实验证明：模型收敛性方面，resnet50 90轮收敛效果不变；在高速互联网络环境下，稀疏通信不会降低训练速度；低配网络带宽网络环境下（例如10G网络），稀疏通信在训练速度上有明显优势，相比稠密通信的同步训练提速10倍。
+* Collective Operator模式
+    * Collective Operator模式的支持，增加GPU下多个all reduce的操作。通过Python API向Program中增加collective op，使得分布式优化算法开发的灵活性显著提升。
+* Resnet50 on Imagenet收敛速度优化
+    * 支持动态BatchSize、动态ImageSize以及矩形crop等方法；FP32精度下,在v100单机8卡验证，收敛速度提升68%(acc1\&gt;=75.9%, acc5=93.0%)。
+* K8S生态支持
+    * Kubeflow支持paddle-job，并贡献到kubeflow社区。
+    * 支持工业生产环境下的Paddle-K8S-Operator，可与kubeflow配合使用。
+    * K8S环境适合新手提交任务的脚本，提供百度云可复现教程。
+
+## 模型建设
+
+* PaddleCV 智能视觉
+    * 正式发布视频识别工具集，覆盖主流视频分类模型，包括Nonlocal、TSM 、Attention Cluster、NeXtVLAD、LSTM,、StNet、TSN，效果和主流实现打平。
+    * 新增基于ImageNet的预训练模型: GoogleNet, ShuffleNetV2, ResNet18,ResNet34。
+    * 新增支持目标检测YOLOv3模型，效果与最好公开实现打平（mAP比原作者提高7绝对百分点）。
+    * 发布基于COCO和MPII数据的Simple Baselines人体姿态估计模型，效果和主流实现打平。
+    * 特征学习模型新增npair loss， 在预训练模型（arcmargin loss）的基础上将recall@1提升至03%（+0.78%)。
+* PaddleNLP智能文本处理
+    * 新增支持中文语义表示ELMO模型，支持多卡训练，训练速度比主流实现快1倍。验证在中文词法分析任务上F1值绝对提升1.1%，在中文阅读理解任务上Rouge-L值提升1%。
+    * 新增中文语义表示模型ERNIE，在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配等中文任务上相对 BERT 中文模型绝对提升了 1% ~ 2% 的精度。
+    * 阅读理解模型升级，优化数据预处理和文档选取，在DuReader验证数据集上Rouge-L提升至65（baseline 39.29)。
+    * 新增基于知识感知的对话模型，对比基线生成对话模型，在F1, BLEU1, BLEU2的指标上平均提升1个百分点。
+    * 发布对话模型工具集，包含Deep Attention Matching Net, 新增对话自动评估工具和基于BERT的对话通用理解相关模型DGU(Dialogue General Understanding)，支持对话语义匹配、DA、DST、槽位解析和意图识别五种对话任务，3个公开数据集达到SOTA 的效果。
+    * 发布PaddleNLP工具包，统一文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的建模，并开放对应的工业级预训练模型。
+* PaddleRec智能推荐
+    * Deep Interest Network（DIN）：新增DIN模型，并在公开数据复现效果，支持cpu和gpu模式下的单机单/多卡训练。DIN适用于推荐中的排序场景（如ctr预估），主要特点为对历史序列建模的过程中结合了预估目标的信息。
+    * Graph Neural Network（GNN）：新增基于session的图神经网络推荐模型，并在公开数据复现效果，支持cpu和gpu模式下的单机单卡训练。该模型适用于推荐中的召回场景，使用GNN对用户的历史信息进行建模，可以捕捉到item序列之间蕴含的更复杂的转换关系。
+    * Word2vec：word2vec采样策略调优，并在公开数据复现效果，添加多机训练支持。
+
+## 工具组件
+
+* 正式发布PaddleHub预训练模型管理工具，旨在帮助用户更高效的管理模型并开展迁移学习的工作
+    * **预训练模型管理** ：通过hub命令行可完成PaddlePaddle生态的预训练模型下载、搜索、版本管理等功能。
+    * **命令行一键使用：** 无需代码，通过命令行即可直接使用预训练模型进行预测，快速调研训练模型效果。目前版本支持以下模型：词法分析LAC；情感分析Senta；目标检测SSD；图像分类ResNet, MobileNet。
+    *  **迁移学习：** 提供了基于预训练模型的Finetune API，用户通过少量代码即可完成迁移学习，包括BERT/ERNIE文本分类、序列标注、图像分类迁移等。
+* 正式发布X2Paddle模型转换工具，可以无损地将其他深度学习框架预测模型迁移至PaddlePaddle。工具还附带TensorFlow, Caffe框架的API详细对比文档，旨在帮助用户更便捷的从其他框架迁移PaddlePaddle。
+
+## BUG修复
+
+* 修复backward时BFS带来的精度不一致的问题
+* 修复ptimizer minimize创建多余反向输入
+* 修复Paddle-TRT运行显存占用大的问题
+* 修复AllReduceDepPass中的Bug
+* 修复FastThreadedExecutor中的Bug
+* 修复Reshape、cross\_entropy、arg\_min\_max、recurrent等Op中的bug
+* 修复VarBase构造的问题
+* 修复了若干memory\_optimizer\_pass中的问题与bug：将复用逻辑由\>= 调整为 =，减少了因Variable复用造成的碎片，去掉了memory\_opitmize\_pass对BlockDesc的依赖，修复了不同类型的Variable会相互复用的bug
+* 修复python3下使用util.plot报错问题
+* 提升Profiler的稳定性并新增Memory Profile功能
+* 修复C++预测必须在线程内clone，才能使多线程生效的问题
+* 修复一些op在InferShape时对变长shape检查的错误
+* 增加一些op对长度为零的LoD序列输入的支持
+* 修复用recurrentp实现StaticRNN的一些bug
+* 修复动态图dygraph模型checkpoint存储和读取的bug
--- a/doc/fluid/release_note_cn.rst
+++ b/doc/fluid/release_note_cn.rst
-==============
-版本说明
-==============
-
-Paddle Fluid v1.3
-##########################
-
-重要更新
-=========
-* 统一Executor和ParallelExecutor接口，用户只需通过CompiledProgram将单卡模型转化多卡模型，并利用Executor进行训练或者预测。
-* 正式发布AnalysisConfig 预测接口，支持计算图分析、算子融合等优化，并支持利用 Intel MKLDNN、Nvidia TensorRT 子图引擎等第三方库的加速.
-* 模型库新增发布PaddlePaddle视频模型库，提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码，用户可一键式高效配置模型完成训练和评测。
-* 新增支持NLP语义表示BERT模型，支持多机多卡训练，支持混合精度训练，训练速度对比主流实现提升50%+，提供完整部署示例。
-* 大规模稀疏参数服务器Benchmark发布， CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader，多机多卡训练性能多方面提升。
-
-基础框架
-==========
-* 安装
-	* 新增Linux和MacOS下的中文版本辅助安装脚本，提供交互式安装方式，协助用户在复杂环境下快速完成PaddlePaddle安装。
-	* Windows支持优化：新增cuda8，cudnn7的GPU支持，新增AVX指令集、MKLDNN、mnist数据集支持。修复Windows加载Linux/Mac下同版本paddle训练模型的问题。
-* 增加动态图基础功能
-	* 动态图tracer、 autograd、python Layer/PyLayer，动态图支持MLP、GAN、ptbRNN、Resnet模型，动态图支持Optimizer、GPU训练。
-* Executor和ParallelExecutor接口优化
-	* 对Executor和ParallelExecutor接口进行统一，用户只需通过CompiledProgram将单卡模型转化多卡模型，并利用Executor进行训练或者预测。
-	* ParallelExecutor优化
-		对MultiDevSSAGraphBuilder进行重构，使得MultiDevSSAGraphBuilder更易扩展。
-		去除ParallelExecutor中的设备锁，提升ParallelExecutor多卡调度性能。
-* 中间表达IR和Pass方面的优化
-	* 完善C++ IR graph的python接口以及C++ IR pass的python接口。
-	* 在framework.py中新增IRGraph类，为在Python层编写IR Pass做准备。
-	* 新增支持网络无锁更新的Pass。
-	* 新增QuantizationTransformPass，此为Quantization Aware Training量化模式训练前的图修改操作部分。
-* 内存和显存方面的优化
-	* 新增支持在编译时加入 Jemalloc 作为动态链接库，提升内存管理的性能，降低基础框架内存管理开销
-	* 新增memory optimize，inplace pass, memory pool early deletion等显存优化策略。
-	* 新增支持网络无锁更新的Pass。
-	* 新增QuantizationTransformPass，此为Quantization Aware Training量化模式训练前的图修改操作部分。
-* Operator整体层面的优化
-	* 每个op在执行前只做一次scope查询，减少读写锁操作（原来需要做1~5次scope查询）
-	* 新增Temporary Allocator，减少op中的同步操作
-	* 新增py_func operator，支持python op接入，用户可以借助py_func Operator快速实现所需要的特有操作
-* 重构DDim，Variable Type等，降低基础框架调度开销。
-* INTEL FP32计算相关优化
-	* 优化density_prior_box operator，单op四线程提速3倍。
-	* 优化Stack operator，单op提速16倍。
-	* 开发Transpose，Concat和Conv3d三个基于MKLDNN的kernel。
-	* 修复lrn operator中MKLDNN kernel精度bug，同时单op提速1.3倍。
-	* 修复MKLDNN初始化占用5G内存的问题，目前初始化占用500MB。
-	* 减少从MKLDNN OP kernel到非MKLDNN OP kernel时不必要的reorder。
-* 完善CPU JitKernel
-	* sequence pooling 的jitkernel，纯op提升2倍。
-	* softmax 的jitkernel，纯op提升2倍，同时使得Bert模型CPU预测提升26%。
-	* 常见的基本逻辑：向量的每个元素求平方kVSquare、矩阵乘法kMatMul、向量的最大值kHMax、向量所有元素的和kHSum。
-
-预测引擎
-==========
-
-服务器预测
-+++++++++++
-* 正式发布AnalysisConfig 预测接口，支持计算图分析、算子融合等优化，并支持利用 Intel MKLDNN、Nvidia TensorRT 子图引擎等第三方库的加速。
-* 预发布 intel CPU上的 预测 INT8 离线量化方案
-	* 开发Conv2D，Pool2D，Quantize，Dequantize四个基于MKL-DNN的INT8 kernel。
-	* 预发布Calibration的3个核心Python API（paddle.fluid.contrib.Calibrator）。
-	* 开发Calibration工具，保证FP32和INT8的精度在ResNet-50和MobileNet-V1在ImageNet验证数据集上相差在1%内。
-	* 支持Intel Xeon CascadeLake Server（VNNI指令）及Intel Xeon SkyLake Server，性能提升约为1.33倍。
-* CPU预测速度提升
-	* fuse sequence pooling concatop，支持N (<200)个sequence_pooling op concat起来组成一个新op，整体使得seqpool模型 CPU预测提升56%。
-	* fuse 连续重复的fc op为一个大op，使得seqpool模型CPU预测速度提升15%。
-	* fuse 逻辑为 $$((X * Y).^2 - (X.^2 * Y.^2) ) .* scalar$$ 的op组合 , 使得seqpool模型CPU预测速度提升8.2%。
-	* 针对输入tensor元素个数为1的情况，优化compare_op的CPU Kernel。
-* 新增Paddle-TRT 对Calibration INT8的支持，GPU预测速度提升
-	* 模型VGG，Resnet50上预测速度达到了Paddle-TRT float32的两倍性能。
-	* 模型VGG，Resnet50在imagenet数据集上测试，精度下降0.3%以内。
-* 算子融合
-	* 增加 fc和 con 相关两个 fuse，作用于 conv_op CUDNN kernel。
-	* 新增Conv+Affine Channel的融合pass，Faster RCNN运行的性能提升26.8%。
-	* 新增Transpose+Flatten+Concat 融合pass，MobilenetSSD模型性能提升15%。
-	* 实现beam_search operator的CUDA Kernel，并且将相应的top-k、elementwise_add、reshape、log计算融合到beam_search operator中。
-* 功能完善及易用性提升
-	* 新增C++ IR graph的Python接口。
-	* 新增预测库的Python接口。
-	* 服务端预测支持从内存加载模型。
-* 其他
-	* 删除legacy V2代码。从1.3版本起，不再支持V1&V2老版本功能。
-	* 修复Paddle-TRT elementwise-mul模型运行出现问题的bug。
-	* 修复Paddle-TRT  trt_engine stream多个连续输入情况下模型输出结果异常的bug。
-
-移动端预测
-+++++++++++
-* 效率优化，常见模型预测速度提升
-	* int8预测支持dequantize和其他op（batch normalization/relu/elementwise add）进行自动kernel融合。
-	* transpose2 operator对于shuffle channel操作进行优化。
-	* gru operator使用neon指令进行优化，并针对batch size为1时进行优化。
-	* 优化和实现pooling，支持任意的padding。
-	* 优化和实现batch normalization、softmax、elementwise add。
-* 新增支持多个输入和多个输出的模型预测。
-* 新增实现prelu6 operator、cast operator、top_k operator。
-* 修复int8 offline量化溢出结果不对的问题。
-* 修复winograd实现在输入feature map的height和width不相等时结果可能为0的bug。
-
-模型建设
-==========
-* PaddleCV 智能视觉
-	* 新增发布PaddlePaddle视频模型库，包括五个视频分类模型：Attention Cluster、NeXtVLAD、LSTM,、stNet、TSN。提供适合视频分类任务的通用骨架代码，包括数据读取和预处理、训练和预测、网络模型以及指标计算等多个模块。用户根据需要添加自己的网络模型，直接复用其他模块的代码，快速部署模型。
-	* 新增支持目标检测Mask R-CNN模型，效果与主流实现打平。
-	* 语义分割DeepLabV3+模型，depthwise_conv op融合，显存优化，显存占用对比上一版本减少50%。
-* PaddleNLP 智能文本处理
-	* 新增支持NLP语义表示BERT模型，支持多机多卡训练，支持混合精度训练，训练速度对比主流实现提升50%+，提供完整部署示例。
-	* 机器翻译Transformer模型优化解码计算，decoder中加入对encoder output计算结果的cache，预测速度提升一倍。
-* PaddleRec 智能推荐
-	* Sequence Semantic Retrieval 新增单机多线程、单机多卡运行示例，添加预测功能、数据预处理优化，完善部署示例。
-	* GRU4Rec新增负采样功能，使用bpr loss和cross entropy loss的效果与原作打平。
-
-分布式训练
-===========
-* 大规模稀疏参数服务器Benchmark发布
-	* 测试真实业务场景下，特征规模百亿、样本平均特征数1k的点击率预估任务，在batch=512情况下，100worker加速比95.0，吞吐量1.56M/s 。
-* CPU多机异步训练
-	* 发布面向点击率预估任务的built-in reader，Criteo数据集下IO总吞吐提升1300%。
-* GPU多机多卡水平扩展性能提升
-	* 新增并行模式：PG（ParallelGraph）、MP（Multi-Process），独立GPU卡之间的计算，提升性能同时，不影响模型精度。
-	* 在ResNet50模型，单机8卡V100下，PG, MP模式提升训练性能30%以上；4机32卡，PG模式提速46%，MP模式提速60%。
-	* 在BERT模型，8卡V100下，PG, MP模式提升训练性能26%。
-	* Multi-Process模式相比Parallel-Graph模式对Reader速度敏感度不高。
-* GPU多机多卡垂直扩展性能提升
-	* 新增功能：fp16和混合精度训练
-	* Fp16单机单卡加速情况：ResNet50提速约87%，BERT提速约70%。
-	* BERT同时开启PG和混合精度，单机8卡下单位时间吞吐提升120%。
-	* ResNet50同时开启混合精度训练和MP模式，在V100单机8卡、4机32卡下，单位时间吞吐提升100%。
-* 典型模型收敛速度优化
-	* 新增功能：动态Batch Size，动态Image Resize方法。
-	* Resnet50 on Imagenet数据集：训练收敛轮数下降为标准训练方法的1/3左右。
-
-VisualDL
-==========
-* VisualDL graph支持Paddle fluid保存的模型可视化展示。
-
-
-
-Paddle Fluid v1.2
-##########################
-
-Paddle Fluid v1.2在基础框架、预测引擎、模型建设、分布式训练各个方向上完成多项更新。基础框架支持python3.5及以上全版本。预测引擎优化，预测性能大幅提升。增强了对RL相关的支持能力。模型库新增图像分类任任务的预训练模型、语言模型任务新增基于cudnn的LSTM实现、分布式word2vec模型。CPU多机异步训练升级了包括worker异步并发和IO、通信优化在内多项功能，整体吞吐大幅提升。
-
-基础框架
-==========
-* 安装
-	* 提供新pip安装包，支持Windows下CPU执行。
-* 编程语言
-	* 新增对python3.6、python3.7的支持。
-* 重构内存分配模块Allocator，提升CPU下内存分配策略，提升显存利用率(默认关闭，需要使用FLAGS_allocator_strategy)。
-* 限制SelectedRows的使用。修复了稀疏正则和稀疏优化器的bug。
-* Tensor支持DLPack，方便被其他框架集成和集成其他训练框架。
-* OP
-	* 修复 expand op shape 推理错误的bug
-	* 支持 Selu 激活函数
-
-预测引擎
-==========
-* 服务器预测
-	* GPU 支持图融合，且支持和 TensorRT引擎混合改图，在Resnet50和Googlenet等图像通用模型上bs=1下性能提升 50%~100%。
-	* GPU支持DDPG Deep Explore预测。
-	* Paddle-TRT对更多模型的支持，其中包括Resnet， SE-Resnet， DPN，GoogleNet。
-	* CPU, GPU, TensorRT 等加速引擎合并入 AnalysisPredictor，统一由 AnalysisConfig 控制。
-	* 增加调用多线程数学库的接口。
-	* 新增TensorRT plugin的支持，包括 :code:`split operator` ， :code:`prelu operator` ，  :code:`avg_pool operator` ,  :code:`elementwise_mul operator` 。
-	* 增加了JIT CPU Kernel，支持基本的向量操作，以及常见的算法包括ReLU，LSTM和GRU的部分实现，可以实现在AVX和AVX2指令集之间自动runtime切换。
-	* 优化CRF decoding和LayerNorm在AVX以及AVX2指令集上的实现。
-	* 修复了 AnalysisPredictor 在GPU，在CPU 到 GPU 的 transfer data 不删除的问题。
-	* 修复了 Variable 中包含 container 内存持续增长的问题。
-	* 修复 :code:`fc_op` 不支持3-D Tensor的问题。
-	* 修复了Analysis predictor 在GPU下执行pass时的问题。
-	* 修复了TensorRT下运行GoogleNet的问题。
-	* 预测性能提升
-		* Max Sequence pool optimization，单op提高10%。
-		*  :code:`Softmax operator` 优化，单op提升14%。
-		*  :code:`Layer Norm operator` 优化，支持avx2指令集，单op提升5倍。
-		*  :code:`Stack operator` 优化，单op提升3.6倍。
-		* 增加depthwise_conv_mkldnn_pass，加速MobileNet预测。
-		* 加速analysis模式的图分析时间，提升70倍。
-		* DAM开源模型，提升118.8%。
-* 移动端预测
-	* 实现winograd算法， GoogleNet v1性能大幅提升35%。
-	* GoogleNet 8bit优化，相比float加速14%。
-	* MobileNet v1 8bit支持，相比float加速20%。
-	* MobileNet v2 8bit支持，相比float加速19%。
-	* FPGA V1 开发了Deconv算子。
-	* android gpu支持MobileNet、MobileNetSSD、GoogleNet、SqueezeNet、YOLO、ResNet等主流的网络模型。
-
-
-模型建设
-===========
-* CV图像分类任务发布MobileNet V1, ResNet101, ResNet152，VGG11预训练模型。
-* CV Metric Learning模型新增arcmargin损失，并调整训练方式，采用element-wise作为预训练模型，pair-wise继续微调的训练方式提升精度。
-* NLP语言模型任务新增基于cudnn的LSTM实现，对比PaddingRNN的实现方式，在不同参数配置下速度提升3~5倍。
-* 增加分布式word2vec模型，包括新增的tree-based softmax operator，negative sampling等，与经典word2vec算法对齐。
-* 新增GRU4Rec、Tag-Space算法的分布式配置。
-* 完善Multi-view Simnet模型，并增加inference配置。
-* 支持强化学习算法 DQN。
-* 现已支持python3.x的模型：语义匹配DAM，阅读理解BiDAF，机器翻译Transformer，语言模型，强化学习DQN、DoubleDQN模型、DuelingDQN模型，视频分类TSN，度量学习Metric Learning，场景文字识别CRNN-CTC 、OCR Attention，生成式对抗网络ConditionalGAN、DCGAN、CycleGAN，语义分割ICNET、DeepLab v3+，目标检测Faster-RCNN、MobileNet-SSD 、PyramidBox ，图像分类SE-ResNeXt、ResNet等，个性化推荐TagSpace、GRU4Rec、SequenceSemanticRetrieval、DeepCTR、Multiview-Simnet。
-
-分布式训练
-=============
-* CPU多机异步训练
-	* worker异步并发：增加 :code:`AsyncExecutor` ，以训练文件作为执行粒度，支持分布式训练中的worker端计算异步无锁计算，同时支持单机训练。以CTR任务为例，单机训练速度，在充分利用单机线程的情况下，整体吞吐提升14倍。
-	* IO优化：增加支持 :code:`AsyncExecutor` 的DataFeed，支持可定制化的通用分类任务格式。面向CTR任务，增加CTRReader，使数据读取速度线性提升，在PaddleRec/ctr任务中，整体吞吐提升1倍。
-	* 通信优化：针对稀疏访问的Dense参数例如Embedding，增加稀疏通信机制，以语义匹配任务为例，获取参数的总量可以压缩到1%以下，在搜索真实场景的数据下，整体训练吞吐可以提升50倍。
-* GPU多机同步训练
-	* 修复Transformer、Bert模型下P2P训练模式会Hang住的问题。
-
-文档
-=========
-* API
-	* 新增13篇API使用指南。
-	* 新增300个API Reference中文文档。
-	* 优化77个API Reference英文文档：包括代码示例、参数说明等。
-* 安装文档
-	* 新增python3.6、python3.7安装说明。
-	* 新增windows pip install安装说明。
-* Book文档
-	* Book文档中的代码示例更改为Low level API。
-* 使用文档
-	* 新增《Operator相关注意事项》，更新《保存与载入模型变量》、《C++预测API介绍》、《使用TensorRT库预测》、《如何贡献代码》等多篇使用文档。
--- a/doc/fluid/release_note_en.md
+++ b/doc/fluid/release_note_en.md