未验证 提交 925bd9de 编写于 作者: C Cheerego 提交者: GitHub

update_releasenote_1.4 (#828)

上级 af0c7d7f
...@@ -15,4 +15,4 @@ ...@@ -15,4 +15,4 @@
user_guides/index_cn.rst user_guides/index_cn.rst
advanced_usage/index_cn.rst advanced_usage/index_cn.rst
api_cn/index_cn.rst api_cn/index_cn.rst
release_note_cn.rst release_note_cn.md
...@@ -8,5 +8,6 @@ ...@@ -8,5 +8,6 @@
user_guides/index_en.rst user_guides/index_en.rst
advanced_usage/index_en.rst advanced_usage/index_en.rst
api/index_en.rst api/index_en.rst
release_note_en.md
# 版本说明
## 目录
* 重要更新
* 基础框架
* 安装
* 中间表达IR和Pass方面的优化
* IO优化
* 执行优化
* 显存优化
* 完善CPU JITKernel
* Intel CPU底层计算优化
* 集成Intel nGraph图编译引擎
* 框架基础功能增强
* 动态图preview版基础功能完善
* 预测引擎
* 服务器预测引擎
* 移动端预测引擎
* 部署工具
* 分布式训练
* 模型建设
* PaddleCV 智能视觉
* PaddleNLP智能文本处理
* PaddleRec智能推荐
* 工具组件
* BUG修复
## 重要更新
* 基础框架对训练速度和显存占用进行了全面优化,完整支持量化训练。初步集成了Intel nGraph,动态图preview版单机单卡基本功能完善。
* 正式发布模型压缩工具包[PaddleSlim](https://github.com/PaddlePaddle/models/tree/develop/PaddleSlim)和模型预测服务[Paddle Serving](https://github.com/PaddlePaddle/Serving),全面提升PaddlePaddle部署能力。
* 优化分布式IO,增加远程文件系统流式读取能力。GPU多机多卡同步训练通过增加稀疏通信能力提升带宽不敏感训练能力,在低配网络带宽网络环境下,例如10G网络下,同步训练可提速10倍。
* 更好支持K8S生态,提供工业生产环境下的Paddle-K8S-Operator支持;Kubeflow支持paddle-job。
* 正式发布[视频识别工具集](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/video),覆盖主流视频分类模型,包括Nonlocal、TSM 、Attention Cluster、NeXtVLAD、LSTM、StNet、TSN。
* 新增中文语义表示模型[ERNIE](https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),在多项中文任务上相对 BERT精度绝对提升1-2个百分点。新增对话通用理解相关模型 DGU,支持5类对话任务,在3个公开数据集达到 SOTA 的效果。
* 新增基于图神经网络的推荐模型[(Graph Neural Network)](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec/gnn),并提供公开数据集下的benchmark效果。
* 正式发布[PaddleHub](https://github.com/PaddlePaddle/PaddleHub)预训练模型管理工具,提供包括预训练模型管理、命令行一键式使用和迁移学习三大功能。旨在帮助用户更高效地管理模型并开展迁移学习的工作。
* 正式发布[X2Paddle模型转换工具](https://github.com/PaddlePaddle/X2Paddle),用户可以无损地将其他深度学习框架预测模型迁移至PaddlePaddle。
## 基础框架
* 安装
* 增加install\_check.run\_check()接口,对安装是否成功提供更完善的检查。
* 中间表达IR和Pass方面的优化
* 完成IrGraph、IrNode、IrVarNode以及IrOpNode的封装,支持使用Python编写IR Pass。
* IO优化
* PyReader接口优化:可通过新接口reader = fluid.io.PyReader (..., iterable=True, ...)创建for循环可迭代的reader,并通过feed方式将数据送入网络训练。
* 执行优化
* 用户可设置with\_data\_parallel的places参数,指定在某些GPU卡上运行,从而支持单进程多训练任务执行。
* 优化了多卡执行器调度策略,在ResNet50和Transformer模型上验证速度提升8%~19%。
* 多卡情况下支持对AllReduce进行按分组Fuse,ResNet模型的多卡速度提升8%~30%(不同卡数提速有差异),Transformer模型的多卡速度提升4%左右。
* 显存优化
* GC策略优化:Eager Deletion策略支持while\_op内部变量的及时删除;支持非全量Eager Deletion策略,用户可设置FLAGS\_memory\_fraction\_of\_eager\_deletion=0.xx控制即时删除内存/显存空间的百分比。
* Op优化:优化cross entropy、expand、layer\_norm、dropout等p的反向注册机制,去除无关变量依赖,提高框架显存性能。
* 新增两个FLAGS(FLAGS\_initial\_gpu\_memory\_in\_mb和FLAGS\_reallocate\_gpu\_memory\_in\_mb)来让用户指定初始显存池容量和再分配显存池容量。
* 调整inplace\_op\_pass策略,提高inplace的策略的覆盖率。
* 取消了在python端做activation op inplace优化的逻辑,统一到inplace\_op\_pass。
* 新增Memory Profile功能。
* 完善CPU JITKernel
* 优化JITKernel的调用方式,添加Cache机制和获取所有相同类型函数的接口,方便开发者根据不同情况有选择的调用。
* 使用JITKernel优化SGD算法,在PyramidDNN模型下对应的OP部分速度提升44%,整体训练速度提升12%;使用JITKernel优化fused\_embedding\_seq\_pool,在PyramidDNN模型下对应op的反向算子速度提升18%, 整体训练速度提升6%。
* Intel CPU底层计算优化
* MKLDNN升级至18,包含若干性能增强(如基于GEMM的卷积运算 / INT8卷积运算等)。
* 使用MKL优化GELU OP,OP性能提升至原来的3倍。
* 增强MKLDNN相关Kernel的单元测试。
* 集成了Intel nGraph图编译引擎,为PaddlePaddle支持更多硬件后端提供了便利
* 通过ngraph\_engine OP将子图交由nGraph核心,经图优化后调度在CPU上执行。用环境变量FLAGS\_use\_ngraph=true即可在运行时调用nGraph。
* 支持ResNet50模型在CPU上的训练和预测。ResNet50在CPU上的性能,和基于MKLDNN的直接优化相比,预测和训练性能均有显著提升。
* 框架基础功能增强
* 支持同步的Batch Norm操作;支持softmax设置axis; 新增spectral norm, rang, acos, asin, atanh操作;新增Npair Loss,用于特征学习。
* 框架中添加cosine\_decay学习率调整策略。
* 新增sampled\_softmax\_with\_cross\_entropy, 用于提升大词典下的训练效率。
* 支持SGD和Adam优化算法的fuse,在Transformer模型上,速度能够提升2%,在Cycle GAN模型上,速度能够提升6%。
* 加强lsmtp,支持cell内部裁剪、初始化cell state和hidden state。
* 加强adagrad,支持初始化累积动量。
* 支持Tensor使用\_\_getitem\_\_ 方式操作。
* 新增QuantizationFreezePass、ConvertToInt8Pass以及TransformForMobilePass。完整支持动态和静态两种量化训练方式及对应模型保存。
* 动态图preview版基础功能完善:
* 基础功能:支持LRDecay,整体支持GPU单卡及CPU单机的模型训练和评估。
* API:公开动态图对应基础接口,重构现有的 Layers,增加对 GRU、LayerNorm、NCE、PRelu 等 Layers 的支持。
* 性能:在Resnet,Mnist模型上验证与静态图基本持平。
* 增加Transformer、MNIST、Se-Resnext 等模型的动态图实现。
## 预测引擎
### 服务器预测
* 预测库整合PaddlePaddle/Anakin,统一接口提供高效预测能力。
* 支持Anakin GPU子图和CPU子图。
* Python预测接口支持Anakin子图。
* Resnet、VGG、Googlenet、Mobilenet、ShuffleNet、Faster RCNN、Yolo、SSD等模型实现显著预测加速。
* 预测框架优化,小模型预测速度提升明显
* 增加runtime\_context\_cache\_pass,重点模型提升17%。
* 优化5个OP的infershape,重点模型提升13%。
* 完善ZeroCopy接口,避免使用AnalysisPredictor 时存在多余CPU拷贝。
* INT8 量化预测持续加强
* 进一步完善通过TensorRT 支持INT8 量化,支持Alexnet、Googlenet、Vgg、Mobilenet、ShuffleNet等模型。优化调用TensorRT下的信息序列化反序列化,加快模型初始化速度。
* 实现基于C++ Pass的INT8量化框架。增加若干INT8 OP Kernel : Transpose, Contact, Requantize。通过微调MkldnnQuantizerConfig中的量化策略,用户可快速得到符合精度要求的INT8量化模型。INT8量化后的ResNet-50 / MobileNet v1模型,相比原始FP32模型,性能分别提升至7倍 / 3.0倍 (在支持AVX512-DL Boost指令集的至强 6271服务器上)。
### 移动端预测
* ARM CPU
* Paddle-mobile完成矩阵运算库sgemm和sgemv的重构和效率优化,在大部分模型上能获得10%〜100%以上的性能加速。
* 新增while、sequence\_expand、sequence\_pool、sequence\_softmax、gru\_unit、beam\_search和beam\_search\_decode等19个算子,以及对应大量的优化工作,支持attention-based端到端模型的预测。
* 新增winograd 的arm v8实现,在IOS上的v8的硬件上能取得更高的预测性能;winograd支持算子融合 ,保证算子融合后的效率更高。
* 新增kernel为3x3的滑窗直接卷积实现,在channel数较少时会比winograd和gemm效率更高。
* 完成kernel为3x3的depthwise convolution重构和优化,相比之前版本支持任意的padding、性能更优且计算结果更可靠。
* 完成kernel为5x5的depthwise convolution armv8版本的实现,NAS模型的预测效率提升30%以上。
* 完成反卷积conv2d\_transpose的效率优化。
* 新增基于图优化的精简内存复用策略,大部分模型能降低近50%的内存占用。对于ARM CPU已自动开启(FPGA和GPU暂不支持)。
* ARM GPU
* Paddle-mobile完成kernel为1x1的卷积优化,MobileNet v1在高通Adreno GPU上平均预测性能提升35%。
* Paddle Inference初步完成和Paddle-mobile、Anakin的接口统一,待进一步深度融合。
### 部署工具
* 模型压缩工具包PaddleSlim
* 剪切模型压缩策略:支持敏感度和uniform两种方式,支持vgg、resnet、mobilenet等多种类型的网络,支持用户自定义剪切范围。
* 量化训练模型压缩策略:支持动态和静态两种量化训练方式,支持对参数进行分channel量化或整体量化,支持以float类型模拟int8值域保存模型,支持以int8类型保存模型,支持以兼容paddle-mobile的格式保存模型。
* 蒸馏模型压缩策略:支持在teacher网络和student网络任意层添加组合loss,支持FSP Loss, L2 Loss, Softmax with Cross-entropy Loss。
* 其它功能:支持配置文件管理压缩任务超参数,支持多种压缩策略组合使用,蒸馏和剪切压缩过程支持checkpoints功能。
* Paddle Serving
* 支持paddle inference远程部署。
* 服务端支持用户新增数据处理Operator,支持用户自定义预估逻辑,支持模型热加载功能。
* 客户端提供C++ SDK,供业务逻辑进行调用,支持自定义protobuf定制网络数据传输协议,A/B测试能力。
* 提供经典任务使用paddle serving的示例模板,包括文本分类,图像分类任务。
* 针对文本分类任务,给出延迟和吞吐的benchmark。
## 分布式训练
* 分布式IO优化
* Pipe Reader接口优化:在保持数据预处理灵活性的前提下,提供高效IO的方法。支持企业级Linux系统用户定制化,实现高性能IO组件,在离线数据预处理处进行统一维护。增强远程文件系统流式读取能力,支持数据载入内存模式、分布式打乱功能。
* Executor与分布式IO的整合
* AsyncExecutor整合进入Executor,增加train\_from\_dataset/infer\_from\_dataset接口,支持基于Pipe Reader的训练,在保持多队列IO功能的前提下,支持用户自定义PipeLine程序,提供python端灵活处理数据的能力。
* GPU多机多卡同步训练增加带宽不敏感训练能力
* GPU同步训练增加稀疏通信能力,支持sparse all reduce。
* 通过通信稀疏度的控制,在算法层面保障模型收敛,并增加DGCOptimizer。
* 通过在resnet50 on imagenet上进行实验证明:模型收敛性方面,resnet50 90轮收敛效果不变;在高速互联网络环境下,稀疏通信不会降低训练速度;低配网络带宽网络环境下(例如10G网络),稀疏通信在训练速度上有明显优势,相比稠密通信的同步训练提速10倍。
* Collective Operator模式
* Collective Operator模式的支持,增加GPU下多个all reduce的操作。通过Python API向Program中增加collective op,使得分布式优化算法开发的灵活性显著提升。
* Resnet50 on Imagenet收敛速度优化
* 支持动态BatchSize、动态ImageSize以及矩形crop等方法;FP32精度下,在v100单机8卡验证,收敛速度提升68%(acc1\>=75.9%, acc5=93.0%)。
* K8S生态支持
* Kubeflow支持paddle-job,并贡献到kubeflow社区。
* 支持工业生产环境下的Paddle-K8S-Operator,可与kubeflow配合使用。
* K8S环境适合新手提交任务的脚本,提供百度云可复现教程。
## 模型建设
* PaddleCV 智能视觉
* 正式发布视频识别工具集,覆盖主流视频分类模型,包括Nonlocal、TSM 、Attention Cluster、NeXtVLAD、LSTM,、StNet、TSN,效果和主流实现打平。
* 新增基于ImageNet的预训练模型: GoogleNet, ShuffleNetV2, ResNet18,ResNet34。
* 新增支持目标检测YOLOv3模型,效果与最好公开实现打平(mAP比原作者提高7绝对百分点)。
* 发布基于COCO和MPII数据的Simple Baselines人体姿态估计模型,效果和主流实现打平。
* 特征学习模型新增npair loss, 在预训练模型(arcmargin loss)的基础上将recall@1提升至03%(+0.78%)。
* PaddleNLP智能文本处理
* 新增支持中文语义表示ELMO模型,支持多卡训练,训练速度比主流实现快1倍。验证在中文词法分析任务上F1值绝对提升1.1%,在中文阅读理解任务上Rouge-L值提升1%。
* 新增中文语义表示模型ERNIE,在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配等中文任务上相对 BERT 中文模型绝对提升了 1% ~ 2% 的精度。
* 阅读理解模型升级,优化数据预处理和文档选取,在DuReader验证数据集上Rouge-L提升至65(baseline 39.29)。
* 新增基于知识感知的对话模型,对比基线生成对话模型,在F1, BLEU1, BLEU2的指标上平均提升1个百分点。
* 发布对话模型工具集,包含Deep Attention Matching Net, 新增对话自动评估工具和基于BERT的对话通用理解相关模型DGU(Dialogue General Understanding),支持对话语义匹配、DA、DST、槽位解析和意图识别五种对话任务,3个公开数据集达到SOTA 的效果。
* 发布PaddleNLP工具包,统一文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的建模,并开放对应的工业级预训练模型。
* PaddleRec智能推荐
* Deep Interest Network(DIN):新增DIN模型,并在公开数据复现效果,支持cpu和gpu模式下的单机单/多卡训练。DIN适用于推荐中的排序场景(如ctr预估),主要特点为对历史序列建模的过程中结合了预估目标的信息。
* Graph Neural Network(GNN):新增基于session的图神经网络推荐模型,并在公开数据复现效果,支持cpu和gpu模式下的单机单卡训练。该模型适用于推荐中的召回场景,使用GNN对用户的历史信息进行建模,可以捕捉到item序列之间蕴含的更复杂的转换关系。
* Word2vec:word2vec采样策略调优,并在公开数据复现效果,添加多机训练支持。
## 工具组件
* 正式发布PaddleHub预训练模型管理工具,旨在帮助用户更高效的管理模型并开展迁移学习的工作
* **预训练模型管理** :通过hub命令行可完成PaddlePaddle生态的预训练模型下载、搜索、版本管理等功能。
* **命令行一键使用:** 无需代码,通过命令行即可直接使用预训练模型进行预测,快速调研训练模型效果。目前版本支持以下模型:词法分析LAC;情感分析Senta;目标检测SSD;图像分类ResNet, MobileNet。
* **迁移学习:** 提供了基于预训练模型的Finetune API,用户通过少量代码即可完成迁移学习,包括BERT/ERNIE文本分类、序列标注、图像分类迁移等。
* 正式发布X2Paddle模型转换工具,可以无损地将其他深度学习框架预测模型迁移至PaddlePaddle。工具还附带TensorFlow, Caffe框架的API详细对比文档,旨在帮助用户更便捷的从其他框架迁移PaddlePaddle。
## BUG修复
* 修复backward时BFS带来的精度不一致的问题
* 修复ptimizer minimize创建多余反向输入
* 修复Paddle-TRT运行显存占用大的问题
* 修复AllReduceDepPass中的Bug
* 修复FastThreadedExecutor中的Bug
* 修复Reshape、cross\_entropy、arg\_min\_max、recurrent等Op中的bug
* 修复VarBase构造的问题
* 修复了若干memory\_optimizer\_pass中的问题与bug:将复用逻辑由\>= 调整为 =,减少了因Variable复用造成的碎片,去掉了memory\_opitmize\_pass对BlockDesc的依赖,修复了不同类型的Variable会相互复用的bug
* 修复python3下使用util.plot报错问题
* 提升Profiler的稳定性并新增Memory Profile功能
* 修复C++预测必须在线程内clone,才能使多线程生效的问题
* 修复一些op在InferShape时对变长shape检查的错误
* 增加一些op对长度为零的LoD序列输入的支持
* 修复用recurrentp实现StaticRNN的一些bug
* 修复动态图dygraph模型checkpoint存储和读取的bug
==============
版本说明
==============
Paddle Fluid v1.3
##########################
重要更新
=========
* 统一Executor和ParallelExecutor接口,用户只需通过CompiledProgram将单卡模型转化多卡模型,并利用Executor进行训练或者预测。
* 正式发布AnalysisConfig 预测接口,支持计算图分析、算子融合等优化,并支持利用 Intel MKLDNN、Nvidia TensorRT 子图引擎等第三方库的加速.
* 模型库新增发布PaddlePaddle视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。
* 新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。
* 大规模稀疏参数服务器Benchmark发布, CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。
基础框架
==========
* 安装
* 新增Linux和MacOS下的中文版本辅助安装脚本,提供交互式安装方式,协助用户在复杂环境下快速完成PaddlePaddle安装。
* Windows支持优化:新增cuda8,cudnn7的GPU支持,新增AVX指令集、MKLDNN、mnist数据集支持。修复Windows加载Linux/Mac下同版本paddle训练模型的问题。
* 增加动态图基础功能
* 动态图tracer、 autograd、python Layer/PyLayer,动态图支持MLP、GAN、ptbRNN、Resnet模型,动态图支持Optimizer、GPU训练。
* Executor和ParallelExecutor接口优化
* 对Executor和ParallelExecutor接口进行统一,用户只需通过CompiledProgram将单卡模型转化多卡模型,并利用Executor进行训练或者预测。
* ParallelExecutor优化
对MultiDevSSAGraphBuilder进行重构,使得MultiDevSSAGraphBuilder更易扩展。
去除ParallelExecutor中的设备锁,提升ParallelExecutor多卡调度性能。
* 中间表达IR和Pass方面的优化
* 完善C++ IR graph的python接口以及C++ IR pass的python接口。
* 在framework.py中新增IRGraph类,为在Python层编写IR Pass做准备。
* 新增支持网络无锁更新的Pass。
* 新增QuantizationTransformPass,此为Quantization Aware Training量化模式训练前的图修改操作部分。
* 内存和显存方面的优化
* 新增支持在编译时加入 Jemalloc 作为动态链接库,提升内存管理的性能,降低基础框架内存管理开销
* 新增memory optimize,inplace pass, memory pool early deletion等显存优化策略。
* 新增支持网络无锁更新的Pass。
* 新增QuantizationTransformPass,此为Quantization Aware Training量化模式训练前的图修改操作部分。
* Operator整体层面的优化
* 每个op在执行前只做一次scope查询,减少读写锁操作(原来需要做1~5次scope查询)
* 新增Temporary Allocator,减少op中的同步操作
* 新增py_func operator,支持python op接入,用户可以借助py_func Operator快速实现所需要的特有操作
* 重构DDim,Variable Type等,降低基础框架调度开销。
* INTEL FP32计算相关优化
* 优化density_prior_box operator,单op四线程提速3倍。
* 优化Stack operator,单op提速16倍。
* 开发Transpose,Concat和Conv3d三个基于MKLDNN的kernel。
* 修复lrn operator中MKLDNN kernel精度bug,同时单op提速1.3倍。
* 修复MKLDNN初始化占用5G内存的问题,目前初始化占用500MB。
* 减少从MKLDNN OP kernel到非MKLDNN OP kernel时不必要的reorder。
* 完善CPU JitKernel
* sequence pooling 的jitkernel,纯op提升2倍。
* softmax 的jitkernel,纯op提升2倍,同时使得Bert模型CPU预测提升26%。
* 常见的基本逻辑:向量的每个元素求平方kVSquare、矩阵乘法kMatMul、向量的最大值kHMax、向量所有元素的和kHSum。
预测引擎
==========
服务器预测
+++++++++++
* 正式发布AnalysisConfig 预测接口,支持计算图分析、算子融合等优化,并支持利用 Intel MKLDNN、Nvidia TensorRT 子图引擎等第三方库的加速。
* 预发布 intel CPU上的 预测 INT8 离线量化方案
* 开发Conv2D,Pool2D,Quantize,Dequantize四个基于MKL-DNN的INT8 kernel。
* 预发布Calibration的3个核心Python API(paddle.fluid.contrib.Calibrator)。
* 开发Calibration工具,保证FP32和INT8的精度在ResNet-50和MobileNet-V1在ImageNet验证数据集上相差在1%内。
* 支持Intel Xeon CascadeLake Server(VNNI指令)及Intel Xeon SkyLake Server,性能提升约为1.33倍。
* CPU预测速度提升
* fuse sequence pooling concatop,支持N (<200)个sequence_pooling op concat起来组成一个新op,整体使得seqpool模型 CPU预测提升56%。
* fuse 连续重复的fc op为一个大op,使得seqpool模型CPU预测速度提升15%。
* fuse 逻辑为 $$((X * Y).^2 - (X.^2 * Y.^2) ) .* scalar$$ 的op组合 , 使得seqpool模型CPU预测速度提升8.2%。
* 针对输入tensor元素个数为1的情况,优化compare_op的CPU Kernel。
* 新增Paddle-TRT 对Calibration INT8的支持,GPU预测速度提升
* 模型VGG,Resnet50上预测速度达到了Paddle-TRT float32的两倍性能。
* 模型VGG,Resnet50在imagenet数据集上测试,精度下降0.3%以内。
* 算子融合
* 增加 fc和 con 相关两个 fuse,作用于 conv_op CUDNN kernel。
* 新增Conv+Affine Channel的融合pass,Faster RCNN运行的性能提升26.8%。
* 新增Transpose+Flatten+Concat 融合pass,MobilenetSSD模型性能提升15%。
* 实现beam_search operator的CUDA Kernel,并且将相应的top-k、elementwise_add、reshape、log计算融合到beam_search operator中。
* 功能完善及易用性提升
* 新增C++ IR graph的Python接口。
* 新增预测库的Python接口。
* 服务端预测支持从内存加载模型。
* 其他
* 删除legacy V2代码。从1.3版本起,不再支持V1&V2老版本功能。
* 修复Paddle-TRT elementwise-mul模型运行出现问题的bug。
* 修复Paddle-TRT trt_engine stream多个连续输入情况下模型输出结果异常的bug。
移动端预测
+++++++++++
* 效率优化,常见模型预测速度提升
* int8预测支持dequantize和其他op(batch normalization/relu/elementwise add)进行自动kernel融合。
* transpose2 operator对于shuffle channel操作进行优化。
* gru operator使用neon指令进行优化,并针对batch size为1时进行优化。
* 优化和实现pooling,支持任意的padding。
* 优化和实现batch normalization、softmax、elementwise add。
* 新增支持多个输入和多个输出的模型预测。
* 新增实现prelu6 operator、cast operator、top_k operator。
* 修复int8 offline量化溢出结果不对的问题。
* 修复winograd实现在输入feature map的height和width不相等时结果可能为0的bug。
模型建设
==========
* PaddleCV 智能视觉
* 新增发布PaddlePaddle视频模型库,包括五个视频分类模型:Attention Cluster、NeXtVLAD、LSTM,、stNet、TSN。提供适合视频分类任务的通用骨架代码,包括数据读取和预处理、训练和预测、网络模型以及指标计算等多个模块。用户根据需要添加自己的网络模型,直接复用其他模块的代码,快速部署模型。
* 新增支持目标检测Mask R-CNN模型,效果与主流实现打平。
* 语义分割DeepLabV3+模型,depthwise_conv op融合,显存优化,显存占用对比上一版本减少50%。
* PaddleNLP 智能文本处理
* 新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。
* 机器翻译Transformer模型优化解码计算,decoder中加入对encoder output计算结果的cache,预测速度提升一倍。
* PaddleRec 智能推荐
* Sequence Semantic Retrieval 新增单机多线程、单机多卡运行示例,添加预测功能、数据预处理优化,完善部署示例。
* GRU4Rec新增负采样功能,使用bpr loss和cross entropy loss的效果与原作打平。
分布式训练
===========
* 大规模稀疏参数服务器Benchmark发布
* 测试真实业务场景下,特征规模百亿、样本平均特征数1k的点击率预估任务,在batch=512情况下,100worker加速比95.0,吞吐量1.56M/s 。
* CPU多机异步训练
* 发布面向点击率预估任务的built-in reader,Criteo数据集下IO总吞吐提升1300%。
* GPU多机多卡水平扩展性能提升
* 新增并行模式:PG(ParallelGraph)、MP(Multi-Process),独立GPU卡之间的计算,提升性能同时,不影响模型精度。
* 在ResNet50模型,单机8卡V100下,PG, MP模式提升训练性能30%以上;4机32卡,PG模式提速46%,MP模式提速60%。
* 在BERT模型,8卡V100下,PG, MP模式提升训练性能26%。
* Multi-Process模式相比Parallel-Graph模式对Reader速度敏感度不高。
* GPU多机多卡垂直扩展性能提升
* 新增功能:fp16和混合精度训练
* Fp16单机单卡加速情况:ResNet50提速约87%,BERT提速约70%。
* BERT同时开启PG和混合精度,单机8卡下单位时间吞吐提升120%。
* ResNet50同时开启混合精度训练和MP模式,在V100单机8卡、4机32卡下,单位时间吞吐提升100%。
* 典型模型收敛速度优化
* 新增功能:动态Batch Size,动态Image Resize方法。
* Resnet50 on Imagenet数据集:训练收敛轮数下降为标准训练方法的1/3左右。
VisualDL
==========
* VisualDL graph支持Paddle fluid保存的模型可视化展示。
Paddle Fluid v1.2
##########################
Paddle Fluid v1.2在基础框架、预测引擎、模型建设、分布式训练各个方向上完成多项更新。基础框架支持python3.5及以上全版本。预测引擎优化,预测性能大幅提升。增强了对RL相关的支持能力。模型库新增图像分类任任务的预训练模型、语言模型任务新增基于cudnn的LSTM实现、分布式word2vec模型。CPU多机异步训练升级了包括worker异步并发和IO、通信优化在内多项功能,整体吞吐大幅提升。
基础框架
==========
* 安装
* 提供新pip安装包,支持Windows下CPU执行。
* 编程语言
* 新增对python3.6、python3.7的支持。
* 重构内存分配模块Allocator,提升CPU下内存分配策略,提升显存利用率(默认关闭,需要使用FLAGS_allocator_strategy)。
* 限制SelectedRows的使用。修复了稀疏正则和稀疏优化器的bug。
* Tensor支持DLPack,方便被其他框架集成和集成其他训练框架。
* OP
* 修复 expand op shape 推理错误的bug
* 支持 Selu 激活函数
预测引擎
==========
* 服务器预测
* GPU 支持图融合,且支持和 TensorRT引擎混合改图,在Resnet50和Googlenet等图像通用模型上bs=1下性能提升 50%~100%。
* GPU支持DDPG Deep Explore预测。
* Paddle-TRT对更多模型的支持,其中包括Resnet, SE-Resnet, DPN,GoogleNet。
* CPU, GPU, TensorRT 等加速引擎合并入 AnalysisPredictor,统一由 AnalysisConfig 控制。
* 增加调用多线程数学库的接口。
* 新增TensorRT plugin的支持,包括 :code:`split operator` , :code:`prelu operator` , :code:`avg_pool operator` , :code:`elementwise_mul operator` 。
* 增加了JIT CPU Kernel,支持基本的向量操作,以及常见的算法包括ReLU,LSTM和GRU的部分实现,可以实现在AVX和AVX2指令集之间自动runtime切换。
* 优化CRF decoding和LayerNorm在AVX以及AVX2指令集上的实现。
* 修复了 AnalysisPredictor 在GPU,在CPU 到 GPU 的 transfer data 不删除的问题。
* 修复了 Variable 中包含 container 内存持续增长的问题。
* 修复 :code:`fc_op` 不支持3-D Tensor的问题。
* 修复了Analysis predictor 在GPU下执行pass时的问题。
* 修复了TensorRT下运行GoogleNet的问题。
* 预测性能提升
* Max Sequence pool optimization,单op提高10%。
* :code:`Softmax operator` 优化,单op提升14%。
* :code:`Layer Norm operator` 优化,支持avx2指令集,单op提升5倍。
* :code:`Stack operator` 优化,单op提升3.6倍。
* 增加depthwise_conv_mkldnn_pass,加速MobileNet预测。
* 加速analysis模式的图分析时间,提升70倍。
* DAM开源模型,提升118.8%。
* 移动端预测
* 实现winograd算法, GoogleNet v1性能大幅提升35%。
* GoogleNet 8bit优化,相比float加速14%。
* MobileNet v1 8bit支持,相比float加速20%。
* MobileNet v2 8bit支持,相比float加速19%。
* FPGA V1 开发了Deconv算子。
* android gpu支持MobileNet、MobileNetSSD、GoogleNet、SqueezeNet、YOLO、ResNet等主流的网络模型。
模型建设
===========
* CV图像分类任务发布MobileNet V1, ResNet101, ResNet152,VGG11预训练模型。
* CV Metric Learning模型新增arcmargin损失,并调整训练方式,采用element-wise作为预训练模型,pair-wise继续微调的训练方式提升精度。
* NLP语言模型任务新增基于cudnn的LSTM实现,对比PaddingRNN的实现方式,在不同参数配置下速度提升3~5倍。
* 增加分布式word2vec模型,包括新增的tree-based softmax operator,negative sampling等,与经典word2vec算法对齐。
* 新增GRU4Rec、Tag-Space算法的分布式配置。
* 完善Multi-view Simnet模型,并增加inference配置。
* 支持强化学习算法 DQN。
* 现已支持python3.x的模型:语义匹配DAM,阅读理解BiDAF,机器翻译Transformer,语言模型,强化学习DQN、DoubleDQN模型、DuelingDQN模型,视频分类TSN,度量学习Metric Learning,场景文字识别CRNN-CTC 、OCR Attention,生成式对抗网络ConditionalGAN、DCGAN、CycleGAN,语义分割ICNET、DeepLab v3+,目标检测Faster-RCNN、MobileNet-SSD 、PyramidBox ,图像分类SE-ResNeXt、ResNet等,个性化推荐TagSpace、GRU4Rec、SequenceSemanticRetrieval、DeepCTR、Multiview-Simnet。
分布式训练
=============
* CPU多机异步训练
* worker异步并发:增加 :code:`AsyncExecutor` ,以训练文件作为执行粒度,支持分布式训练中的worker端计算异步无锁计算,同时支持单机训练。以CTR任务为例,单机训练速度,在充分利用单机线程的情况下,整体吞吐提升14倍。
* IO优化:增加支持 :code:`AsyncExecutor` 的DataFeed,支持可定制化的通用分类任务格式。面向CTR任务,增加CTRReader,使数据读取速度线性提升,在PaddleRec/ctr任务中,整体吞吐提升1倍。
* 通信优化:针对稀疏访问的Dense参数例如Embedding,增加稀疏通信机制,以语义匹配任务为例,获取参数的总量可以压缩到1%以下,在搜索真实场景的数据下,整体训练吞吐可以提升50倍。
* GPU多机同步训练
* 修复Transformer、Bert模型下P2P训练模式会Hang住的问题。
文档
=========
* API
* 新增13篇API​使用指南。
* 新增300个API Reference中文文档。
* 优化77个API Reference英文文档:包括代码示例、参数说明等。
* 安装文档
* 新增python3.6、python3.7安装说明。
* 新增windows pip install安装说明。
* Book文档
* Book文档中的代码示例更改为Low level API。
* 使用文档
* 新增《Operator相关注意事项》,更新《保存与载入模型变量》、《C++预测API介绍》、《使用TensorRT库预测》、《如何贡献代码》等多篇使用文档。
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册