diff --git a/doc/fluid/index_cn.rst b/doc/fluid/index_cn.rst index 786a04319e3f6e41779ae08b68602b878a3c2fa0..6aa61ae8475129c7b31c864a72e9ab9f831cec1f 100644 --- a/doc/fluid/index_cn.rst +++ b/doc/fluid/index_cn.rst @@ -16,4 +16,5 @@ advanced_usage/index_cn.rst api_cn/index_cn.rst faq/index_cn.rst + release_note_cn.rst diff --git a/doc/fluid/release_note_cn.rst b/doc/fluid/release_note_cn.rst index 237144092856dae49d3cbb28b2f485ef5d375677..2668adb96a94c0ce5ac1ff36161415492ba9e302 100644 --- a/doc/fluid/release_note_cn.rst +++ b/doc/fluid/release_note_cn.rst @@ -6,200 +6,198 @@ Release Notes ########## * 重要更新 * 基础框架 - * 安装 - * 中间表达IR和Pass方面的优化 - * IO优化 - * 执行优化 + * 安装&环境 + * 动态图Preview版 + * 性能优化 * 显存优化 - * 完善CPU JITKernel - * Intel CPU底层计算优化 - * 集成Intel nGraph图编译引擎 + * 执行优化 * 框架基础功能增强 - * 动态图preview版基础功能完善 -* 预测引擎 - * 服务器预测引擎 - * 移动端预测引擎 - * 部署工具 + * OP完善  +* 预测部署 + * 服务端部署库 + * Paddle Serving + * PaddleSlim * 分布式训练 * 模型建设 - * PaddleCV 智能视觉 - * PaddleNLP智能文本处理 - * PaddleRec智能推荐 + * 图像分类 + * PaddleDetection + * PaddleGAN + * PaddleVideo + * PaddleNLP * 工具组件 * BUG修复 重要更新 ########## -* 基础框架对训练速度和显存占用进行了全面优化,完整支持量化训练,初步集成了Intel nGraph,动态图preview版单机单卡基本功能完善。 -* 正式发布模型压缩工具包 `PaddleSlim `_ 和模型预测服务 `Paddle Serving `_ ,全面提升PaddlePaddle部署能力。 -* 优化分布式IO,增加远程文件系统流式读取能力。GPU多机多卡同步训练通过增加稀疏通信能力提升带宽不敏感训练能力,在低配网络带宽网络环境下,例如10G网络下,同步训练可提速10倍。 -* 更好支持K8S生态,提供工业生产环境下的Paddle-K8S-Operator支持;Kubeflow支持paddle-job。 -* 正式发布 `视频识别工具集 `_ ,覆盖主流视频分类模型,包括Non-Local、TSM 、Attention Cluster、NeXtVLAD、Attention LSTM、StNet、TSN。 -* 新增中文语义表示模型 `ERNIE `_ ,在多项中文任务上相对 BERT精度绝对提升1-2个百分点。新增对话通用理解相关模型 DGU,支持5类对话任务,在3个公开数据集达到 SOTA 的效果。 -* 新增基于 `图神经网络的推荐模型 `_ (Graph Neural Network),并提供公开数据集下的Benchmark效果。 -* 正式发布 `PaddleHub `_ 预训练模型管理工具,提供包括预训练模型管理、命令行一键式使用和迁移学习三大功能。旨在帮助用户更高效地管理模型并开展迁移学习的工作。 -* 正式开源 `AutoDL Design `_ ,自动化网络结构设计。 -* 全新升级聚焦并行的 `PARL 1.1 `_ ,一个修饰符,实现并行强化学习算法。 -* 正式发布 `X2Paddle `_ 模型转换工具,用户可以无损地将其他深度学习框架预测模型迁移至PaddlePaddle。 +* 训练性能在数据读取、执行调度优化、OP计算逻辑及底层cudnn、CUDAKernel、MKLDNN等方面进行了大量优化,训练性能大幅提升;进一步优化显存占用,整体具备领先优势。 +* 新增基于Padding方式实现的LSTM、GRU,更方便用户学习和使用;并基于对应API新增语言模型、seq2seq翻译模型的示例模型;增强部分OP功能,更好地支持NLP中Tensor多个维度可变的任务。 +* 正式发布动态图Preview版并提供相关的API文档,并提供 7个模型动态图版本官方实现。 +* 官方模型库方面正式发布PaddleDetection物体检测统一框架,覆盖主流目标检测算法,易扩展和模块化组合使用;发布图像生成库,覆盖主流的GAN算法,可一键式运行;发布PaddleNLP-Research,包含百度在 NLP 领域最新研究工作。 +* 模型压缩框架PaddleSlim新增基于模拟退火的自动剪切策略和轻量级模型结构自动搜索功能(Light-NAS。 +* 分布式训练发布HighLevel API Fleet,单机转分布式训练成本显著降低;GPU多机多卡性能显著提升,在ResNet50、BERT、ERNIE等模型中4x8 v100配置下相比此前发布的Benchmark提速超过50%。 +* PaddleHub新增29个预训练模型,总计覆盖文本、图像、视频三大领域40个模型,并全面提升易用性,发布PaddleHub官网。 +* 发布图学习框架PGL(Paddle Graph Learning) Preview版,提供基于游走以及消息传递两种计算范式去搭建最前沿的图学习算法。 基础框架 ########## -* 安装 - * 增加install\_check.run\_check()接口,对安装是否成功提供更完善的检查。 -* 中间表达IR和Pass方面的优化 - * 完成IrGraph、IrNode、IrVarNode以及IrOpNode的封装,支持使用Python编写IR Pass。 -* IO优化 - * PyReader接口优化:可通过新接口reader = fluid.io.PyReader (..., iterable = True, ...)创建for循环可迭代的reader,并通过feed方式将数据送入网络训练。 -* 执行优化 - * 用户可设置with\_data\_parallel的places参数,指定在某些GPU卡上运行,从而支持单进程多训练任务执行。 - * 优化了多卡执行器调度策略,在ResNet50和Transformer模型上验证速度提升8%~19%。 - * 多卡情况下支持对AllReduce进行按分组Fuse,ResNet模型的多卡速度提升8%~30%(不同卡数提速有差异),Transformer模型的多卡速度提升4%左右。 +* 安装&环境 + * 增加Linux下对CUDA 10的支持,增加Windows下对CUDA 9的支持,cuDnn版本统一为7.3+ + * 安装包不按照CPU处理器是否支持AVX指令集做区分,支持自动判断并选择选择使用AVX指令集或不使用用AVX指令集 + * 针对Python2、Python3下可能版本不兼容的依赖包限制了版本范围,以支持Python相应环境下正确安装 + * 提供可全离线安装PaddlePaddle的Docker镜像 + * 增加安装后的GPU多卡运行检测 + * 解除GPU单卡训练时对NCCL的依赖 +* 动态图Preview版 + * 发布动态图相关的API和文档 + * 基础功能完善,显存和速度优化,支持GPU单机多卡训练 + * 增加transformer、ocr recognition、resnet、language model等7个模型效果对齐的动态图版本实现 +* 性能优化 + * 数据读取优化 + * 使用多进程优化数据读取、预处理部分,DeepLab V3+单GPU训练获得63%的性能提升。 + * Op计算逻辑优化 + * 优化concat/spilt op输入/输出个数<=4的实现,避免1次CPU->GPU的数据传输。 + * 优化recurrent op中执行器的调用方法,修改成在迭代前调用一次executor.Prepare,迭代中executor.RunPreparedContext执行计算,从而避免每次迭代反复创建op。该优化对PaddingRNN padding small和large模型分别带来23%和15%的性能提升。 + * 融合优化器Momentum op的计算,对Resnet50单GPU、4 GPU训练分别可带来1.6%、10.6%的性能提升。 + * cuDnn使用策略优化 + * 使用cuDnn v7中新增的算法选择API cudnnGetConvolutionForwardAlgorithm_v7优化conv_cudnn op算法选择策略,Mask-RCNN和YoloV3单GPU训练分别取得32%和11%的加速。 + * 一些op的cuDnn实现慢于cuda实现,比如conv2d_transpose、pool2d(global_pooling=True)时,设置use_cudnn=False后,Cycle GAN、SE-ResNeXt单GPU训练分别获得33%、34%的性能提升。 + * Op CUDAKernel优化 + * 使用精心优化的CUDA kernel优化sum op,对多个LoDTensor求和这种情况优化效果特别明显,GPU执行获得3.3x的加速。 + * 使用2D线程Block配置优化elementwise_mul grad op,加速其CUDA Kernel中的Broadcast操作。 + * Intel CPU底层计算优化 + * 增加新的OP融合Pass(conv+relu6,conv_transpose+elementwise_add) + * 增加新的FP32 MKLDNN kernel (FC),INT8 MKLDNN kernel (Concat) + * 优化若干OP,包括sequence_reverse(前向), sequence_padding(前向), sequence_unpad(反向),bilinear interpolate(前向) + * 优化MKLDNN集成(如对reorder原语进行重用以减少每次创建原语的时间) * 显存优化 - * GC策略优化:Eager Deletion策略支持while\_op内部变量的及时删除;支持非全量Eager Deletion策略,用户可设置FLAGS\_memory\_fraction\_of\_eager\_deletion = 0.xx控制即时删除内存/显存空间的百分比。 - * Op优化:优化cross entropy、expand、layer\_norm、dropout等op的反向注册机制,去除无关变量依赖,提高框架显存性能。 - * 新增两个FLAGS(FLAGS\_initial\_gpu\_memory\_in\_mb和FLAGS\_reallocate\_gpu\_memory\_in\_mb)来让用户指定初始显存池容量和再分配显存池容量。 - * 调整inplace\_op\_pass策略,提高inplace的策略的覆盖率。 - * 取消了在python端做activation op inplace优化的逻辑,统一到inplace\_op\_pass。 - * 新增Memory Profile功能。 -* 完善CPU JITKernel - * 优化JITKernel的调用方式,添加Cache机制和获取所有相同类型函数的接口,方便开发者根据不同情况有选择的调用。 - * 使用JITKernel优化SGD算法,在PyramidDNN模型下对应的OP部分速度提升44%,整体训练速度提升12%;使用JITKernel优化fused\_embedding\_seq\_pool,在PyramidDNN模型下对应op的反向算子速度提升18%, 整体训练速度提升6%。 -* Intel CPU底层计算优化 - * MKLDNN升级至v0.18,包含若干性能增强(如基于GEMM的卷积运算/INT8卷积运算等)。 - * 使用MKL优化GELU OP,OP性能提升至原来的3倍。 - * 增强MKLDNN相关Kernel的单元测试。 -* 集成了Intel nGraph图编译引擎,为PaddlePaddle支持更多硬件后端提供了便利 - * 通过ngraph\_engine OP将子图交由nGraph核心,经图优化后调度在CPU上执行。用环境变量FLAGS\_use\_ngraph = true即可在运行时调用nGraph。 - * 支持ResNet50模型在CPU上的训练和预测。ResNet50在CPU上的性能,和基于MKLDNN的直接优化相比,预测和训练性能均有显著提升。 + * Op层显存优化(在Transformer、Mask-RCNN等模型上显存节省1G以上) + * 提高了inplace策略的覆盖面,支持sum、softmax、softmax_with_cross_entropy等op的inplace计算 + * 修复了dropout、conv_transpose、activation op的反向注册,降低op的显存占用 + * 显存分配与显存复用策略重构 + * 重构Allocator底层架构,为后续扩展Allocator策略提供基础 + * 重构Inplace策略重构,使其代码便于维护,并排除之前策略中变量可能存在误inplace、graph存在环等bu + * 配置优化 + * 用户可通过环境变量FLAGS_conv_workspace_size_limit设置conv层的最大workspace size,单位为MB +* 执行优化 + * 更新CPU_NUM的默认配置为1,之前为设备的逻辑总核数。 + * 对Operator中OpKernel进行cache,避免每次run都重复的选择kernel。 + * ParallelExecutor执行模式(CompiledProgram.with_data_parallel())下的优化:减少同步操作;优化在num_thread=1时的速度,对于小模型的速度提升较为明显。(对于PaddingRNN small model 速度提升16%) * 框架基础功能增强 - * 支持同步的Batch Norm操作;支持softmax设置axis;新增spectral norm,rang,acos,asin,atanh操作;新增Npair Loss,用于特征学习。 - * 框架中添加cosine\_decay学习率调整策略。 - * 新增sampled\_softmax\_with\_cross\_entropy,用于提升大词典下的训练效率。 - * 支持SGD和Adam优化算法的fuse,在Transformer模型上,速度能够提升2%,在Cycle GAN模型上,速度能够提升6%。 - * 加强lsmtp,支持cell内部裁剪、初始化cell state和hidden state。 - * 加强adagrad,支持初始化累积动量。 - * 支持Tensor使用\_\_getitem\_\_ 方式操作。 - * 新增QuantizationFreezePass、ConvertToInt8Pass以及TransformForMobilePass。完整支持动态和静态两种量化训练方式及对应模型保存。 -* 动态图preview版基础功能完善 - * 基础功能:支持LRDecay,整体支持GPU单卡及CPU单机的模型训练和评估。 - * API:公开动态图对应基础接口,重构现有的 Layers,增加对 GRU、LayerNorm、NCE、PRelu 等 Layers 的支持。 - * 性能:在ResNet,MNIST模型上验证与静态图基本持平。 - * 增加Transformer、MNIST、SE-ResNeXt 等模型的动态图实现。 - - -预测引擎 -########## -服务器预测 -++++++++++++ -* 预测库整合PaddlePaddle/Anakin,统一接口提供高效预测能力 - * 支持Anakin GPU子图和CPU子图。 - * Python预测接口支持Anakin子图。 - * ResNet、VGG、GoogleNet、MobileNet、ShuffleNet、Faster R-CNN、YOLO、SSD等模型实现显著预测加速。 -* 预测框架优化,小模型预测速度提升明显 - * 增加runtime\_context\_cache\_pass,重点模型提升17%。 - * 优化5个OP的infershape,重点模型提升13%。 - * 完善ZeroCopy接口,避免使用AnalysisPredictor 时存在多余CPU拷贝。 -* INT8 量化预测持续加强 - * 进一步完善通过TensorRT 支持INT8 量化,支持AlexNet、GoogleNet、VGG、MobileNet、ShuffleNet等模型。优化调用TensorRT下的信息序列化反序列化,加快模型初始化速度。 - * 实现基于C++ Pass的INT8量化框架。增加若干INT8 OP Kernel:Transpose,Contact,Requantize。通过微调MkldnnQuantizerConfig中的量化策略,用户可快速得到符合精度要求的INT8量化模型。INT8量化后的ResNet-50/MobileNet v1模型,相比原始FP32模型,性能分别提升至7倍/3.0倍 (在支持AVX512-DL Boost指令集的至强 6271服务器上)。 - -移动端预测 -++++++++++++ -* ARM CPU - * Paddle Mobile完成矩阵运算库sgemm和sgemv的重构和效率优化,在大部分模型上能获得10%〜100%以上的性能加速。 - * 新增while、sequence\_expand、sequence\_pool、sequence\_softmax、gru\_unit、beam\_search和beam\_search\_decode等19个算子,以及对应大量的优化工作,支持attention-based端到端模型的预测。 - * 新增winograd 的arm v8实现,在IOS上的v8的硬件上能取得更高的预测性能;winograd支持算子融合 ,保证算子融合后的效率更高。 - * 新增kernel为3x3的滑窗直接卷积实现,在channel数较少时会比winograd和gemm效率更高。 - * 完成kernel为3x3的depthwise convolution重构和优化,相比之前版本支持任意的padding、性能更优且计算结果更可靠。 - * 完成kernel为5x5的depthwise convolution armv8版本的实现,NAS模型的预测效率提升30%以上。 - * 完成反卷积conv2d\_transpose的效率优化。 - * 新增基于图优化的精简内存复用策略,大部分模型能降低近50%的内存占用。对于ARM CPU已自动开启(FPGA和GPU暂不支持)。 -* ARM GPU - * Paddle Mobile完成kernel为1x1的卷积优化,MobileNet v1在高通Adreno GPU上平均预测性能提升35%。 -* 预测初步完成和Paddle Mobile、Anakin的接口统一,待进一步深度融合。 - -部署工具 -++++++++++++ -* 模型压缩工具包PaddleSlim - * 剪切模型压缩策略:支持敏感度和uniform两种方式,支持VGG、ResNet、MobileNet等多种类型的网络,支持用户自定义剪切范围。 - * 量化训练模型压缩策略:支持动态和静态两种量化训练方式,支持对参数进行分channel量化或整体量化,支持以float类型模拟int8值域保存模型,支持以int8类型保存模型,支持以兼容paddle Mobile的格式保存模型。 - * 蒸馏模型压缩策略:支持在teacher网络和student网络任意层添加组合loss,支持FSP Loss,L2 Loss,Softmax with Cross-entropy Loss。 - * 其它功能:支持配置文件管理压缩任务超参数,支持多种压缩策略组合使用,蒸馏和剪切压缩过程支持checkpoints功能。 + * build_strategy新增mkldnn_enabled_op_types选项,用户可以灵活地控制哪些op需要使用mkldnn kernel以获得加速 + * 新增ParallelExecutor下的drop_local_exe_scopes接口,可以控制什么时候清理local scope中的数据num_iteration_per_drop_scope的设置依然有效 + * 新增自动混合精度训练接口fluid.contrib.mixed_precision.decorate(),支持图像分类、BERT等模型的训练 + * 新增fluid.gradients接口,11个操作支持做二次反向,使用于图像生成的梯度惩罚功能 + * Intel nGraph图编译引擎支持加强,增加了Bert模型所需的op支持,可以通过Intel nGraph图编译引擎进行BERT模型训练,收敛效果对齐。 +* OP完善 + * 增强fused_elewise_activation op的功能,添加对x+sigmoid(y)、x+tanh(y)计算模式的支持 + * 新增指数滑动平均(Exponential Moving Average), 是模型训练更加平滑稳定 + * 新增sigmoid_focal_loss损失函数 + * 新增deformable RoI pooling操作 + * 新增deformable convolution v2操作 + * 提供unfold操作(即im2col)操作 + +预测部署 +######## +* 服务端部署库 + * 优化显存优化功能。DAM模型显存占用从4G下降至940M; MobileNet 模型显存占用从1G下降至500M。 + * 将Paddle-TRT的优化过程迁移到模型初始化期间,解决Paddle-TRT初次预测时间过长的问题。例如使MobileNet初次预测时间从秒级别下降至毫秒级。 + * 解决使用AnalysisPredictor从内存载入模型时,模型参数多次内存分配的问题。 + * 增强Python预测API,并在官网文档预测部署下增加Python预测API的使用说明。 + * Intel INT8 量化预测持续加强 + * 持续优化INT8量化框架(训练后量化),新增五个模型( GoogleNet, MobileNetV2, VGG16, VGG19, ResNet101);与FP32模型相比,精度损失均在1%以内,性能提升2~3.7倍 + * 支持QAT(训练中量化)训练出来的模型运行在INT8 kernel上,通过Pass对QAT模型进行修改,使其能运行在INT8 kernel上(目前支持 量化/去量化/卷积),在7个模型上(GoogleNet, MobileNetV1, MobileNetV2, VGG16, VGG19, ResNet50, ResNet101),和在FP32 kernel上模拟运行相比,精度变化在0.1%以内 * Paddle Serving - * 支持预测远程部署。 - * 服务端支持用户新增数据处理Operator,支持用户自定义预估逻辑,支持模型热加载功能。 - * 客户端提供C++ SDK,供业务逻辑进行调用,支持自定义protobuf定制网络数据传输协议,A/B测试能力。 - * 提供经典任务使用paddle Serving的示例模板,包括文本分类,图像分类任务。 - * 针对文本分类任务,给出延迟和吞吐的Benchmark。 - + * 支持GPU设备;支持多卡并行预测 + * 提供SE_ResNeXt50_32x4d模型作为标准示例,给出图像分类任务上单卡多并发、多卡多并发等场景benchmark + * 支持大规模稀疏参数任务:用于CTR预估等场景下超大规模embedding的存储和在线访问。一期发布单机版本,支持亿级别embedding访问 + * 易于使用的API接口,API demo示例 +* PaddleSlim + * 集成INT8量化框架 + * 新增自动剪切策略,基于模拟退火算法搜索最优剪切率:对比MobileNet V1在ImageNet 1000类分类任务上FLOPS减少50%; Top1-Accuracy=69.7% + * 新增轻量级模型结构自动搜索功能(Light-NAS):对比MobileNet V1在ImageNet 1000类分类任务上精度无损情况下FLOPS 减少17% + + 分布式训练 -########## -* 分布式IO优化 - * Pipe Reader接口优化:在保持数据预处理灵活性的前提下,提供高效IO的方法。支持企业级Linux系统用户定制化,实现高性能IO组件,在离线数据预处理处进行统一维护。增强远程文件系统流式读取能力,支持数据载入内存模式、分布式打乱功能。 -* Executor与分布式IO的整合 - * AsyncExecutor整合进入Executor,增加train\_from\_dataset/infer\_from\_dataset接口,支持基于Pipe Reader的训练,在保持多队列IO功能的前提下,支持用户自定义PipeLine程序,提供python端灵活处理数据的能力。 -* GPU多机多卡同步训练增加带宽不敏感训练能力 - * GPU同步训练增加稀疏通信能力,支持sparse all reduce。 - * 通过通信稀疏度的控制,在算法层面保障模型收敛,并增加DGCOptimizer。 - * 通过在ResNet50 on imagenet上进行实验证明:模型收敛性方面,ResNet50 90轮收敛效果不变;在高速互联网络环境下,稀疏通信不会降低训练速度;低配网络带宽网络环境下(例如10G网络),稀疏通信在训练速度上有明显优势,相比稠密通信的同步训练提速10倍。 -* Collective Operator模式 - * Collective Operator模式的支持,增加GPU下多个all reduce的操作。通过Python API向Program中增加collective op,使得分布式优化算法开发的灵活性显著提升。 -* ResNet50 on Imagenet收敛速度优化 - * 支持动态BatchSize、动态ImageSize以及矩形crop等方法;FP32精度下,在v100单机8卡验证,收敛速度提升68%(acc1\>=75.9%, acc5=93.0%)。 -* K8S生态支持 - * Kubeflow支持paddle-job,并贡献到kubeflow社区。 - * 支持工业生产环境下的Paddle-K8S-Operator,可与kubeflow配合使用。 - * K8S环境适合新手提交任务的脚本,提供百度云可复现教程。 - -模型建设 -########## -* PaddleCV 智能视觉 - * 正式发布视频识别工具集,覆盖主流视频分类模型,包括Non-Local、TSM 、Attention Cluster、NeXtVLAD、Attention LSTM、StNet、TSN,效果和主流实现打平。 - * 新增基于ImageNet的预训练模型:GoogleNet,ShuffleNetV2,ResNet18,ResNet34。 - * 新增支持目标检测YOLOv3模型,效果与最好公开实现打平(mAP比原作者提高4.7绝对百分点)。 - * 发布基于COCO和MPII数据的Simple Baselines人体姿态估计模型,效果和主流实现打平。 - * 特征学习模型新增npair loss, 在预训练模型(arcmargin loss)的基础上将recall@1提升至79.03%(+0.78%)。 -* PaddleNLP智能文本处理 - * 新增支持中文语义表示ELMo模型,支持多卡训练,训练速度比主流实现快1倍。验证在中文词法分析任务上F1值绝对提升1.1%,在中文阅读理解任务上Rouge-L值提升1%。 - * 新增中文语义表示模型ERNIE,在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配等中文任务上相对 BERT 中文模型绝对提升了 1% ~ 2% 的精度。 - * 阅读理解模型升级,优化数据预处理和文档选取,在DuReader验证数据集上Rouge-L提升至47.65(baseline 39.29)。 - * 新增基于知识感知的对话模型,对比基线生成对话模型,在F1,BLEU1,BLEU2的指标上平均提升1个百分点。 - * 发布对话模型工具集,包含DeepAttentionMatchingNet, 新增对话自动评估工具和基于BERT的对话通用理解相关模型DGU(Dialogue General Understanding),支持对话语义匹配、DA、DST、槽位解析和意图识别五种对话任务,3个公开数据集达到SOTA 的效果。 - * 发布PaddleNLP工具包,统一文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的建模,并开放对应的工业级预训练模型。 -* PaddleRec智能推荐 - * Deep Interest Network(DIN):新增DIN模型,并在公开数据复现效果,支持cpu和gpu模式下的单机单/多卡训练。DIN适用于推荐中的排序场景(如ctr预估),主要特点为对历史序列建模的过程中结合了预估目标的信息。 - * Graph Neural Network(GNN):新增基于session的图神经网络推荐模型,并在公开数据复现效果,支持cpu和gpu模式下的单机单卡训练。该模型适用于推荐中的召回场景,使用GNN对用户的历史信息进行建模,可以捕捉到item序列之间蕴含的更复杂的转换关系。 - * Word2vec:word2vec采样策略调优,并在公开数据复现效果,添加多机训练支持。 - +############ +* 分布式High-Level API Fleet + * 分布式训练统一API,支持参数服务器(Parameter Server)和Collective模式训练,大幅度降低用户从单机切换到多机训练的新增代码量 + * 用户可以通过配置分布式策略调用不同的并行训练方法,对于不同的分布式环境支持多种内建RoleMaker,方便用户调用 +* 参数服务器(Parameter Server)训练新增Communicator设计 + * 独立通信逻辑到Communicator,简化异步训练逻辑 + * 提供可控制通信开关,可针对不同模型针对性调优 +* GPU多机多卡增加多个提升扩展性Feature,NLP/CV经典模型下多机多卡训练提速50% + * 新增Fused All Reduce:通过对gradient tensor进行自动合并,降低参数同步次数 + * 新增Hierachical All Reduce:层次化all reduce操作 + * 新增All Reduce通信并发能力:增加多机训练下,训练对网络波动的容忍能力 + * 新增反向与优化算法之间的依赖分析:提升通信与计算overlap并发的能力 + * 以上新增能力融合可实现在Bert Large(batch 16 x 128)和Resnet50(batch 32)上多机(v100 8*4 卡)训练速度比PaddlePaddle1.4.1提速50%+。 +* GPU多机多卡Benchmark更新 + * ResNet50、VGG16、Transformer和Bert上的速度对比,并提供可复现的benchmarks脚本。 +* CPU-GPU异构设备流水线并行能力支持 + * 新增流水线并行能力,可支持用户自定义在异构硬件分配计算OP,通过流水线交换数据,从而实现异构计算设备的搭配和计算资源的自由配比,提升训练速度。 + * 在IO量大、计算量较小的场景例如CTR预估,Graph Neural Network下相比纯GPU训练有明显速度优势。 + + +模型建设(PaddlePaddle/models) +############################## +* 图像分类 + * 发布9个ImageNet预训练模型,包含ResNet50_vc, ResNet50_vd, ResNet101_vd, ResNet152_vd, ResNet 200_vd, ResNeXt101_64x4d, ResNeXt101_vd_64x4d, SENet154_vd, InceptionV4 + * ResNet50_vd相比已发布的ResNet50效果提升2.62%,可以达到ResNet101精度。ResNet101_vd相比已发布ResNet101效果提升1.88% +* PaddleDetection + * 发布PaddleDetection物体检测统一框架,包含Faster-RCNN (支持FPN), Mask-RCNN (支持FPN), Cascade-RCNN, RetinaNet, Yolo v3, SSD算法,其中FPN, CascadeRCNN, RetinaNet是本次新增算法。 + * 发布一系列预训练模型,其中RCNN系列模型支持ResNet, ResNet_vd, ResNeXt, ResNeXt_vd, SEResNeXt主干网络。Yolo v3持续增加更加轻量的ResNet34, MobileNet主干网络,并发布预训练模型 +* PaddleGAN + * 发布PaddleGAN图像生成库,包含CGAN、DCGAN、CycleGAN、Pix2Pix、StarGAN、AttGAN、STGAN,支持多种数据集,支持经典的GAN网络结构。其中STGAN是百度视觉技术部自研的任意图像属性编辑模型。 +* PaddleVideo + * 优化已经发布的分类模型,NeXtVLAD训练速度提升60%, TSM速度领先竟品39% + * 增加已发布的模型骨干网络,Nonlocal模型增加ResNet101和I3d网络结构 + * 增加动作定位模型C-TCN,百度2018年ActivityNet比赛夺冠方案 +* PaddleNLP + * BERT on PaddlePaddle:支持动态混合精度训练,保证了预训练任务在混合精度训练模式下的精度;支持以多进程的方式进行多卡任务的训练,提高了多卡加速比;优化多机分布式训练的加速比,在 V100 GPU集群上将 6 机相对于单机的 FP32 训练加速效率提高至76% + * 发布PaddleNLP-Research,开源MRQA2019阅读理解竞赛Paddle Fluid基线、 DuConv (ACL2019) 等近期百度在 NLP 学术领域的工作 + + 工具组件 -########## -* 正式开源AutoDL Design自动化网络结构设计 - * 用AutoDL Design方法生成的一系列神经网络,以及使用CIFAR10数据在其上训练出来的一共6个模型,包括了网络结构以及对应的权重。因此每一位业内同行或者是有兴趣的研究者都可以很容易使用PaddlePaddle以及公开的CIFAR10数据,在这6个模型上进行推理(inference)以及模型融合,获得超过98%的准确率。 - * 生成器和评估器的源码开源,该源代码使用了完全由百度自己研发的PaddlePaddle平台和PARL框架。代码中附带有中文文档,以及一些方便大家快速运行的更简单的小demo(例如,以“RNN生成多少个1”作为样例,可以快速验证整个框架的正确性)。大家可以下载、安装和运行,尝试生成属于自己的、全新的神经网络结构。 -* 全新升级聚焦并行的PARL1.1,一个修饰符,实现并行强化学习算法 - * 通过一个简单的修饰符(@parl.remote_class)即可实现并行化。数据预处理以及simulator仿真等计算密集型的任务经过这个修饰符之后,会自动部署到用户指定的计算资源上运行,不再占用主线程的计算资源。 - * 新增了对IMPALA、A2C、GA3C等并行算法的支持。 -* 正式发布PaddleHub预训练模型管理工具,旨在帮助用户更高效的管理模型并开展迁移学习的工作。 - * **预训练模型管理:** 通过hub命令行可完成PaddlePaddle生态的预训练模型下载、搜索、版本管理等功能。 - * **命令行一键使用:** 无需代码,通过命令行即可直接使用预训练模型进行预测,快速调研训练模型效果。目前版本支持以下模型;词法分析LAC;情感分析Senta;目标检测SSD;图像分类ResNet, MobileNet。 - * **迁移学习:** 提供了基于预训练模型的Finetune API,用户通过少量代码即可完成迁移学习,包括BERT/ERNIE文本分类、序列标注、图像分类迁移等。 -* 正式发布X2Paddle模型转换工具,可以无损地将其他深度学习框架预测模型迁移至PaddlePaddle。工具还附带TensorFlow, Caffe框架的API详细对比文档,旨在帮助用户更便捷的从其他框架迁移PaddlePaddle。 +######### +* PaddleHub + * 全新发布PaddleHub官网,易用性全面提升 + * 新增网站http://hub.paddlepaddle.org.cn,包含PaddlePaddle生态的预训练模型使用介绍 + * 迁移学习Demo接入AI Studio与AI Book,无需安装即可快速体验 + * 新增PaddleHub后端服务,支持模型检索、下载、私有化部署等功能 + * 新增29个预训练模型,覆盖文本、图像、视频三大领域;目前官方提供40个预训练模型 + * CV预训练模型 + * 新增图像分类预训练模型11个:SE_ResNeXt, GoogleNet, ShuffleNet等 + * 新增目标检测模型Faster-RCNN和YOLOv3 + * 新增图像生成模型CycleGAN + * 新增人脸检测模型Pyramidbox + * 新增视频分类模型4个: TSN, TSM, StNet, Non-Local + * NLP预训练模型 + * 新增语义模型ELMo + * 新增情感分析模型3个: Senta-BOW, Senta-CNN, Senta-GRNN + * 新增中文情绪识别模型EmoTect + * 新增中文语义相似度分析模型Simnet + * 升级LAC词法分析模型,新增词典干预功能,支持用户自定义分词 + * Fine-tune API升级,灵活性与性能全面提升 + * 支持多卡并行、PyReader多线程IO,ERNIE文本分类Fine-tune速度提升60% + * 简化finetune、evaluate、predict等使用逻辑,提升易用性 + * 增加事件回调功能,方便用户快速实现自定义迁移学习任务 + * 新增多标签分类Fine-tune任务 +* 图学习框架 `PGL `_ (Paddle Graph Learning) + * 发布基于PaddlePaddle的图学习框架PGL Preview版,提供基于游走 (Walk Based) 以及消息传递(Message Passing)两种计算范式去搭建最前沿的图学习算法,如图表征学习、图神经网络等。PGL充分利用Paddle LoD Tensor特性大幅提升Message-Passing范式中信息聚合效率,兼顾了灵活性和高效性 + * 新增基于PGL实现的GCN、GAT,在多个数据集达到SOTA水平 + * 新增基于大规模子图采样模型Graphsage模型,单机可支持5千万节点、20亿条边的巨图 + * 新增node2vec,deepwalk等图表征学习方法,达到SOTA水平 + * 新增PGL文档、API、Tutorial等材料 BUG修复 ########## -* 修复backward时BFS带来的精度不一致的问题 -* 修复ptimizer minimize创建多余反向输入 -* 修复Paddle-TRT运行显存占用大的问题 -* 修复AllReduceDepPass中的Bug -* 修复FastThreadedExecutor中的Bug -* 修复Reshape、cross\_entropy、arg\_min\_max、recurrent等Op中的bug -* 修复VarBase构造的问题 -* 修复了若干memory\_optimizer\_pass中的问题与bug:将复用逻辑由\>= 调整为 =,减少了因Variable复用造成的碎片,去掉了memory\_opitmize\_pass对BlockDesc的依赖,修复了不同类型的Variable会相互复用的bug -* 修复python3下使用util.plot报错问题 -* 提升Profiler的稳定性并新增Memory Profile功能 -* 修复C++预测必须在线程内clone,才能使多线程生效的问题 -* 修复一些op在InferShape时对变长shape检查的错误 -* 增加一些op对长度为零的LoD序列输入的支持 -* 修复用recurrent op实现StaticRNN的一些bug -* 修复动态图dygraph模型checkpoint存储和读取的bug \ No newline at end of file +* 修复softmax_with_cross_entropy操作CPU版本中ignore_label不支持在0到类别数之外label的问题 +* 修复import paddle之后logging.basicConfig设置失效问题 +* 修复python/paddle/fluid/layers/ops.py在python3下报错的问题 +* 修复sequence unpad op在训练过程中不稳定的问题 +* 修复Concat Op属性axis为负数时挂掉的问题 +* 修复了enable_inplace和memory_optimize的潜在bug,保证某些op的输出变量不会被错误地复用 +* 修复了Eager Deletion策略可能会提前误删变量存储空间的bug,提高Eager Deletion策略的稳定性 +* 修复了模型图分析中拓扑排序存在bug导致的在相同模型的输入情况下有不同的模型图的生成情况 +* 修复了预测结束后其他服务线程OMP线程冲突的问题。修复为在CPU模式下,预测引擎会在预测结束后将全局的OMP线程数设回为1。 diff --git a/doc/fluid/user_guides/index_cn.rst b/doc/fluid/user_guides/index_cn.rst index 8c98214afe370b80a409feb0874aba032ff56781..4dffd28ba4e6f9064feecf02d1308686dd5825c7 100644 --- a/doc/fluid/user_guides/index_cn.rst +++ b/doc/fluid/user_guides/index_cn.rst @@ -31,3 +31,4 @@ howto/training/index_cn.rst howto/evaluation_and_debugging/index_cn.rst howto/dygraph/DyGraph.md + models/index_cn.md diff --git a/doc/fluid/user_guides/models/index_cn.md b/doc/fluid/user_guides/models/index_cn.md new file mode 100644 index 0000000000000000000000000000000000000000..ac0ca7c5fdb11966727906b38b2321f47745f64d --- /dev/null +++ b/doc/fluid/user_guides/models/index_cn.md @@ -0,0 +1,407 @@ +# PaddlePaddle Models + +## PaddleCV + +**图像分类** + +图像分类是根据图像的语义信息对不同类别图像进行区分,是计算机视觉中重要的基础问题,是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层视觉任务的基础,在许多领域都有着广泛的应用。如:安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。 + +| **模型名称** | **模型简介** | **数据集** | **评估指标** **top-1/top-5 accuracy(CV2)** | +| ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------- | ------------------------------------------------ | +| [AlexNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | 首次在CNN中成功的应用了ReLU、Dropout和LRN,并使用GPU进行运算加速 | ImageNet-2012验证集 | 56.72%/79.17% | +| [VGG](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | 在AlexNet的基础上使用3*3小卷积核,增加网络深度,具有很好的泛化能力 | ImageNet-2012验证集 | 72.56%/90.93% | +| [GoogleNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | 在不增加计算负载的前提下增加了网络的深度和宽度,性能更加优越 | ImageNet-2012验证集 | 70.70%/89.66% | +| [ResNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | Residual Network,引入了新的残差结构,解决了随着网络加深,准确率下降的问题 | ImageNet-2012验证集 | 80.93%/95.33% | +| [ResNet-D](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | 融合最新多种对ResNet改进策略,ResNet50_vd的top1准确率达到79.84% | ImageNet-2012验证集 | 79.84%/94.93% | +| [Inception-v4](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | 将Inception模块与Residual Connection进行结合,通过ResNet的结构极大地加速训练并获得性能的提升 | ImageNet-2012验证集 | 80.77%/95.26% | +| [MobileNet v1](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | 将传统的卷积结构改造成两层卷积结构的网络,在基本不影响准确率的前提下大大减少计算时间,更适合移动端和嵌入式视觉应用 | ImageNet-2012验证集 | 70.99%/89.68% | +| [MobileNet v2](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | MobileNet结构的微调,直接在thinner的bottleneck层上进行skip learning连接以及对bottleneck layer不进行ReLu非线性处理可取得更好的结果 | ImageNet-2012验证集 | 72.15%/90.65% | +| [SE_ResNeXt](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | 在ResNeXt 基础、上加入了SE(Sequeeze-and-Excitation) 模块,提高了识别准确率,在ILSVRC 2017 的分类项目中取得了第一名 | ImageNet-2012验证集 | 81.40%/95.48% | +| [ShuffleNet v2](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | ECCV2018,轻量级CNN网络,在速度和准确度之间做了很好地平衡。在同等复杂度下,比ShuffleNet和MobileNetv2更准确,更适合移动端以及无人车领域 | ImageNet-2012验证集 | 70.03%/89.17% | + +
+
+
+ +**目标检测** + +目标检测任务的目标是给定一张图像或是一个视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。对于计算机而言,能够“看到”的是图像被编码之后的数字,但很难解图像或是视频帧中出现了人或是物体这样的高层语义概念,也就更加难以定位目标出现在图像中哪个区域。 + +| 模型名称 | 模型简介 | 数据集 | 评估指标 mAP | +| ------------------------------------------------------------ | ------------------------------------------------------------ | ---------- | ------------------------------------------------------- | +| [SSD](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection) | 很好的继承了MobileNet预测速度快,易于部署的特点,能够很好的在多种设备上完成图像目标检测任务 | VOC07 test | mAP = 73.32% | +| [Faster-RCNN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection) | 创造性地采用卷积网络自行产生建议框,并且和目标检测网络共享卷积网络,建议框数目减少,质量提高 | MS-COCO | 基于ResNet 50 mAP(0.50:0.95) = 36.7% | +| [Mask-RCNN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection) | 经典的两阶段框架,在Faster R-CNN模型基础上添加分割分支,得到掩码结果,实现了掩码和类别预测关系的解藕,可得到像素级别的检测结果。 | MS-COCO | 基于ResNet 50 Mask mAP(0.50:0.95) = 31.4% | +| [RetinaNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection) | 经典的一阶段框架,由ResNet主干网络、FPN结构、和两个分别用于回归物体位置和预测物体类别的子网络组成。在训练过程中使用Focal Loss,解决了传统一阶段检测器存在前景背景类别不平衡的问题,进一步提高了一阶段检测器的精度。 | MS-COCO | 基于ResNet mAP (500.50:0.95) = 36% | +| [YOLOv3](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection) | 速度和精度均衡的目标检测网络,相比于原作者darknet中的YOLO v3实现,PaddlePaddle实现参考了论文[Bag of Tricks for Image Classification with Convolutional Neural Networks](https://arxiv.org/pdf/1812.01187.pdf) 增加了mixup,label_smooth等处理,精度(mAP(0.5:0.95))相比于原作者提高了4.7个绝对百分点,在此基础上加入synchronize batch normalization, 最终精度相比原作者提高5.9个绝对百分点。 | MS-COCO | 基于DarkNet mAP(0.50:0.95)= 38.9% | +| [PyramidBox](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/face_detection) | **PyramidBox** **模型是百度自主研发的人脸检测模型**,利用上下文信息解决困难人脸的检测问题,网络表达能力高,鲁棒性强。于18年3月份在WIDER Face数据集上取得第一名 | WIDER FACE | mAP (Easy/Medium/Hard set)= 96.0%/ 94.8%/ 88.8% | + +
+
+
+ +**图像分割** + +图像语义分割顾名思义是将图像像素按照表达的语义含义的不同进行分组/分割,图像语义是指对图像内容的理解,例如,能够描绘出什么物体在哪里做了什么事情等,分割是指对图片中的每个像素点进行标注,标注属于哪一类别。近年来用在无人车驾驶技术中分割街景来避让行人和车辆、医疗影像分析中辅助诊断等。 + +| 模型名称 | 模型简介 | 数据集 | 评估指标 | +| ------------------------------------------------------------ | ------------------------------------------------------------ | --------- | --------------- | +| [ICNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/icnet) | 主要用于图像实时语义分割,能够兼顾速度和准确性,易于线上部署 | Cityscape | Mean IoU=67.0% | +| [DeepLab V3+](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/deeplabv3%2B) | 通过encoder-decoder进行多尺度信息的融合,同时保留了原来的空洞卷积和ASSP层, 其骨干网络使用了Xception模型,提高了语义分割的健壮性和运行速率 | Cityscape | Mean IoU=78.81% | + + +
+
+
+ +**关键点检测** + +人体骨骼关键点检测,Pose Estimation,主要检测人体的一些关键点,如关节,五官等,通过关键点描述人体骨骼信息。人体骨骼关键点检测对于描述人体姿态,预测人体行为至关重要。是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等等。 + +| 模型名称 | 模型简介 | 数据集 | 评估指标 | +| ------------------------------------------------------------ | ------------------------------------------------------------ | ------------ | ------------ | +| [Simple Baselines](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/human_pose_estimation) | coco2018关键点检测项目亚军方案,网络结构非常简单,效果达到state of the art | COCO val2017 | AP = 72.7% | + +
+
+
+ +**图像生成** + +图像生成是指根据输入向量,生成目标图像。这里的输入向量可以是随机的噪声或用户指定的条件向量。具体的应用场景有:手写体生成、人脸合成、风格迁移、图像修复等。 + +| 模型名称 | 模型简介 | 数据集 | +| ------------------------------------------------------------ | ------------------------------------------------------------ | ---------- | +| [CGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN) | 条件生成对抗网络,一种带条件约束的GAN,使用额外信息对模型增加条件,可以指导数据生成过程 | Mnist | +| [DCGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN) | 深度卷积生成对抗网络,将GAN和卷积网络结合起来,以解决GAN训练不稳定的问题 | Mnist | +| [Pix2Pix](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN) | 图像翻译,通过成对图片将某一类图片转换成另外一类图片,可用于风格迁移 | Cityscapes | +| [CycleGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN) | 图像翻译,可以通过非成对的图片将某一类图片转换成另外一类图片,可用于风格迁移 | Cityscapes | +| [StarGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN) | 多领域属性迁移,引入辅助分类帮助单个判别器判断多个属性,可用于人脸属性转换 | Celeba | +| [AttGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN) | 利用分类损失和重构损失来保证改变特定的属性,可用于人脸特定属性转换 | Celeba | +| [STGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN) | 人脸特定属性转换,只输入有变化的标签,引入GRU结构,更好的选择变化的属性 | Celeba | + +
+
+
+ +**场景文字识别** + +场景文字识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下,将图像信息转化为文字序列的过程,可认为是一种特别的翻译过程:将图像输入翻译为自然语言输出。 + +| 模型名称 | 模型简介 | 数据集 | 评估指标 | +| ------------------------------------------------------------ | ------------------------------------------------------------ | -------------------------- | -------------- | +| [CRNN-CTC](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ocr_recognition) | 使用CTC model识别图片中单行英文字符,用于端到端的文本行图片识别方法 | 单行不定长的英文字符串图片 | 错误率= 22.3% | +| [OCR Attention](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ocr_recognition) | 使用attention 识别图片中单行英文字符,用于端到端的自然场景文本识别, | 单行不定长的英文字符串图片 | 错误率 = 15.8% | + +
+
+
+ + +**度量学习** + +度量学习也称作距离度量学习、相似度学习,通过学习对象之间的距离,度量学习能够用于分析对象时间的关联、比较关系,在实际问题中应用较为广泛,可应用于辅助分类、聚类问题,也广泛用于图像检索、人脸识别等领域。 + +| 模型名称 | 模型简介 | 数据集 | 评估指标 Recall@Rank-1(使用arcmargin训练) | +| ------------------------------------------------------------ | --------------------------------------------------------- | ------------------------------ | --------------------------------------------- | +| [ResNet50未微调](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/metric_learning) | 使用arcmargin loss训练的特征模型 | Stanford Online Product(SOP) | 78.11% | +| [ResNet50使用triplet微调](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/metric_learning) | 在arcmargin loss基础上,使用triplet loss微调的特征模型 | Stanford Online Product(SOP) | 79.21% | +| [ResNet50使用quadruplet微调](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/metric_learning) | 在arcmargin loss基础上,使用quadruplet loss微调的特征模型 | Stanford Online Product(SOP) | 79.59% | +| [ResNet50使用eml微调](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/metric_learning) | 在arcmargin loss基础上,使用eml loss微调的特征模型 | Stanford Online Product(SOP) | 80.11% | +| [ResNet50使用npairs微调](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/metric_learning) | 在arcmargin loss基础上,使用npairs loss微调的特征模型 | Stanford Online Product(SOP) | 79.81% | + +
+
+
+ + +**视频分类和动作定位** + +视频分类是视频理解任务的基础,包含语音数据、包含运动信息等的视频对象,因此理解视频需要获得更多的上下文信息,不仅要理解每帧图像是什么、包含什么,还需要结合不同帧,知道上下文的关联信息。视频分类方法主要包含基于卷积神经网络、基于循环神经网络、或将这两者结合的方法。 + +| 模型名称 | 模型简介 | 数据集 | 评估指标 | +| ------------------------------------------------------------ | ------------------------------------------------------------ | -------------------------- | ----------- | +| [TSN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ECCV'16,基于2D-CNN的经典网络结构,首次引入序列信息到视频分类,证明序列信息有效性 | Kinetics-400 | Top-1 = 67% | +| [Non-Local](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 视频非局部关联建模模型,引入类似self-attention机制,效果好,计算量大 | Kinetics-400 | Top-1 = 62% | +| [stNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ActivityNet2018 最佳single模型,AAAI19,融合局部与全局的时序模型 | Kinetics-400 | Top-1 = 69% | +| [TSM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | TSN改进版,简单高效,计算简单,当前的SOTA | Kinetics-400 | Top-1 = 70% | +| [Attention LSTM](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | ActivityNet17最佳single model,更稳定的时序模型 | Youtube-8M | GAP = 86% | +| [Attention Cluster](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | CVPR18,引入不同模态的不同注意力聚合模型,更好捕获特征间的组合关系 | Youtube-8M | GAP = 87% | +| [NeXtVlad](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | Youtube-8M 2018最佳single model,弱化时序关系,适合建模短视频 | Youtube-8M | GAP = 87% | +| [C-TCN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo) | 2018年ActivityNet夺冠方案,提供了处理视频动作定位问题的解决方案 | ActivityNet1.3提供的数据集 | Top1=31% | + +
+
+
+ +## PaddleNLP + +**基础模型(词法分析&语言模型)** + +**词法分析** + +[LAC (**Lexical Analysis of Chinese**](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis))百度自主研发中文特色模型词法分析任务,**输入是一个字符串,而输出是句子中的词边界和词性、实体类别。 + +| **模型** | **Precision** | **Recall** | **F1-score** | +| ---------------- | ------------- | ---------- | ------------ | +| Lexical Analysis | 88.0% | 88.7% | 88.4% | +| BERT finetuned | 90.2% | 90.4% | 90.3% | +| ERNIE finetuned | 92.0% | 92.0% | 92.0% | + +
+
+
+ + +**语言模型** + +[基于LSTM的语言模型任务](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/language_model),给定一个输入词序列(中文分词、英文tokenize),计算其PPL(语言模型困惑度,用户表示句子的流利程度)。 + +| **large config** | **train** | **valid** | **test** | +| ---------------- | --------- | --------- | -------- | +| paddle | 37.221 | 82.358 | 78.137 | +| tensorflow | 38.342 | 82.311 | 78.121 | + +
+
+
+ +**文本理解(文本分类&阅读理解)** + +**情感分析** + +[Senta(Sentiment Classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/sentiment_classification))百度AI开放平台中情感倾向分析模型、百度自主研发的中文特色模型,是目前最好的中文情感分析模型。 + +| **模型** | **dev** | **test** | **模型(****finetune****)** | **dev** | **test** | +| ------------- | ------- | -------- | ---------------------------- | ------- | -------- | +| BOW | 89.8% | 90.0% | BOW | 91.3% | 90.6% | +| CNN | 90.6% | 89.9% | CNN | 92.4% | 91.8% | +| LSTM | 90.0% | 91.0% | LSTM | 93.3% | 92.2% | +| GRU | 90.0% | 89.8% | GRU | 93.3% | 93.2% | +| BI-LSTM | 88.5% | 88.3% | BI-LSTM | 92.8% | 91.4% | +| ERNIE | 95.1% | 95.4% | ERNIE | 95.4% | 95.5% | +| ERNIE+BI-LSTM | 95.3% | 95.2% | ERNIE+BI-LSTM | 95.7% | 95.6% | + + +
+ +**对话情绪识别** + +[EmoTect(Emotion Detection](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/emotion_detection))专注于识别智能对话场景中用户的情绪识别,并开源基于百度海量数据训练好的预训练模型。 + +| **模型** | **闲聊** | **客服** | **微博** | +| -------- | -------- | -------- | -------- | +| BOW | 90.2% | 87.6% | 74.2% | +| LSTM | 91.4% | 90.1% | 73.8% | +| Bi-LSTM | 91.2% | 89.9% | 73.6% | +| CNN | 90.8% | 90.7% | 76.3% | +| TextCNN | 91.1% | 91.0% | 76.8% | +| BERT | 93.6% | 92.3% | 78.6% | +| ERNIE | 94.4% | 94.0% | 80.6% | + +
+ +**阅读理解** + +[MRC(Machine Reading Comprehension)](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/reading_comprehension)机器阅读理解(MRC)是自然语言处理(NLP)中的关键任务之一,开源的DuReader升级了经典的阅读理解BiDAF模型,去掉了char级别的embedding,在预测层中使用了[pointer network](https://arxiv.org/abs/1506.03134),并且参考了[R-NET](https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf)中的一些网络结构,效果上有了大幅提升 + +| **Model** | **Dev ROUGE-L** | **Test ROUGE-L** | +| -------------------------------------------------------- | --------------- | ---------------- | +| BiDAF (原始[论文](https://arxiv.org/abs/1711.05073)基线) | 39.29 | 45.90 | +| 本基线系统 | 47.68 | 54.66 | + +
+ +**语义模型(语义表示&语义匹配)** + +**ERNIE** + +[ERNIE (Embeddings from Language Models)](https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE)百度自研的语义表示模型,通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于 BERT 学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。 + +
+ +**BERT** + +[BERT(Bidirectional Encoder Representation from Transformers) ](https://github.com/PaddlePaddle/LARK/tree/develop/BERT)是一个迁移能力很强的通用语义表示模型, 以 Transformer 为网络基本组件,以双向 Masked Language Model和 Next Sentence Prediction 为训练目标,通过预训练得到通用语义表示,再结合简单的输出层,应用到下游的 NLP 任务,在多个任务上取得了 SOTA 的结果。 + +
+ +**ELMo** + +[ELMo(Embeddings from Language Models) ](https://github.com/PaddlePaddle/LARK/tree/develop/ELMo)是重要的通用语义表示模型之一,以双向 LSTM 为网路基本组件,以 Language Model 为训练目标,通过预训练得到通用的语义表示,将通用的语义表示作为 Feature 迁移到下游 NLP 任务中,会显著提升下游任务的模型性能。 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

数据集

XNLI

LCQMC

MSRA-NER
+ (SIGHAN 2006)

ChnSentiCorp

nlpcc-dbqa

评估
指标

acc

acc

f1-score

acc

mrr

f1-score

dev

test

dev

test

dev

test

dev

test

dev

test

dev

test

BERT

78.1

77.2

88.8

87

94.0

92.6

94.6

94.3

94.7

94.6

80.7

80.8

ERNIE

79.9(+1.8)

78.4(+1.2)

89.7(+0.9)

87.4(+0.4)

95.0(+1.0)

93.8(+1.2)

95.2(+0.6)

95.4(+1.1)

95.0(+0.3)

95.1(+0.5)

82.3(+1.6)

82.7(+1.9)

+ + +
+ +**DAM** + +**深度注意力机制模型(Deep Attention Matching Network)**,是开放领域多轮对话匹配模型。根据多轮对话历史和候选回复内容,排序出最合适的回复。、 + +| | Ubuntu Corpus | Douban Conversation Corpus | | | | | | | | | +| ---- | ------------- | -------------------------- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | +| | R2@1 | R10@1 | R10@2 | R10@5 | MAP | MRR | P@1 | R10@1 | R10@2 | R10@5 | +| DAM | 93.8% | 76.7% | 87.4% | 96.9% | 55.0% | 60.1% | 42.7% | 25.4% | 41.0% | 75.7% | + + +
+ +**SimNet(SimilarityNet**)**百度自主研发的短文本语义匹配语义匹配框架**,一个计算短文本相似度的框架,可以根据用户输入的两个文本,计算出相似度得分。 + +| **模型** | **百度知道** | **ECOM** | **QQSIM** | **UNICOM** | **LCQMC** | +| ------------ | ------------ | -------- | --------- | ---------- | --------- | +| | AUC | AUC | AUC | 正逆序比 | Accuracy | +| BOW_Pairwise | 0.6767 | 0.7329 | 0.7650 | 1.5630 | 0.7532 | + + +
+ +**文本生成(机器翻译&对话生成)** + +**机器翻译** + +[MT(machine translation](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/neural_machine_translation/transformer))机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,输入为源语言句子,输出为相应的目标语言的句子。 + +| **测试集** | **newstest2014** | **newstest2015** | **newstest2016** | +| ---------- | ---------------- | ---------------- | ---------------- | +| Base | 26.35 | 29.07 | 33.30 | +| Big | 27.07 | 30.09 | 34.38 | + +
+ +**对话自动评估** + +**对话自动评估(Auto Dialogue Evaluation)**,主要用于评估开放领域对话系统的回复质量,能够帮助企业或个人快速评估对话系统的回复质量,减少人工评估成本。 + +利用少量标注数据微调后,自动评估打分和人工打分spearman相关系数,如下表。 + +| **/** | **seq2seq_naive** | **seq2seq_att** | **keywords** | **human** | +| ----- | ----------------- | --------------- | ------------ | --------- | +| cor | 0.474 | 0.477 | 0.443 | 0.378 | + +
+ +**对话通用理解** + +**DGU(DialogueGeneralUnderstanding)**,对话通用理解针对数据集开发了相关的模型训练过程,支持分类,多标签分类,序列标注等任务,用户可针对自己的数据集,进行相关的模型定制 + +| **ask_name** | **udc** | **udc** | **udc** | **atis_slot** | **dstc2** | **atis_intent** | **swda** | **mrda** | +| ------------ | ------- | ------- | ------- | ------------- | ---------- | --------------- | -------- | -------- | +| 对话任务 | 匹配 | 匹配 | 匹配 | 槽位解析 | DST | 意图识别 | DA | DA | +| 任务类型 | 分类 | 分类 | 分类 | 序列标注 | 多标签分类 | 分类 | 分类 | 分类 | +| 任务名称 | udc | udc | udc | atis_slot | dstc2 | atis_intent | swda | mrda | +| 评估指标 | R1@10 | R2@10 | R5@10 | F1 | JOINT ACC | ACC | ACC | ACC | +| SOTA | 76.70% | 87.40% | 96.90% | 96.89% | 74.50% | 98.32% | 81.30% | 91.70% | +| DGU | 82.02% | 90.43% | 97.75% | 97.10% | 89.57% | 97.65% | 80.19% | 91.43% | + +
+ +**知识驱动对话** + +[知识驱动对话的新对话任务](https://github.com/baidu/knowledge-driven-dialogue/tree/master),其中机器基于构建的知识图与人交谈。它旨在测试机器进行类似人类对话的能力。 + +| **baseline system** | **F1/BLEU1/BLEU2** | **DISTINCT1/DISTINCT2** | +| ------------------- | ------------------ | ----------------------- | +| retrieval-based | 31.72/0.291/0.156 | 0.118/0.373 | +| generation-based | 32.65/0.300/0.168 | 0.062/0.128 | + +
+
+
+ +## PaddleRec + +个性化推荐,在当前的互联网服务中正在发挥越来越大的作用,目前大部分电子商务系统、社交网络,广告推荐,搜索引擎,都不同程度的使用了各种形式的个性化推荐技术,帮助用户快速找到他们想要的信息。 + +| 模型名称 | 模型简介 | +| ------------------------------------------------------------ | ------------------------------------------------------------ | +| [TagSpace](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec) | 应用于工业级的标签推荐,具体应用场景有feed新闻标签推荐等 | +| [GRU4Rec](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec) | 首次将RNN(GRU)运用于session-based推荐,相比传统的KNN和矩阵分解,效果有明显的提升 | +| [SequenceSemanticRetrieval](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec) | 使用参考论文中的思想,使用多种时间粒度进行用户行为预测 | +| [DeepCTR](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec) | 只实现了DeepFM论文中介绍的模型的DNN部分,DeepFM会在其他例子中给出 | +| [Multiview-Simnet](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec) | 基于多元视图,将用户和项目的多个功能视图合并为一个统一模型 | +| [Word2Vec](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec) | skip-gram模式的word2vector模型 | +| [GraphNeuralNetwork](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec) | 基于会话的图神经网络模型的推荐系统,可以更好的挖掘item中丰富的转换特性以及生成准确的潜在的用户向量表示 | +| [DeepInterestNetwork](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec) | DIN通过一个兴趣激活模块(Activation Unit),用预估目标Candidate ADs的信息去激活用户的历史点击商品,以此提取用户与当前预估目标相关的兴趣。 | + +
+
+
+ + +## 其他模型 + +| 模型名称 | 模型简介 | +| ------------------------------------------------------------ | ------------------------------------------------------------ | +| [DeepASR](https://github.com/PaddlePaddle/models/blob/develop/PaddleSpeech/DeepASR/README_cn.md) | 利用Fluid框架完成语音识别中声学模型的配置和训练,并集成 Kaldi 的解码器 | +| [DQN](https://github.com/PaddlePaddle/models/blob/develop/PaddleRL/DeepQNetwork/README_cn.md) | value based强化学习算法,第一个成功地将深度学习和强化学习结合起来的模型 | +| [DoubleDQN](https://github.com/PaddlePaddle/models/blob/develop/PaddleRL/DeepQNetwork/README_cn.md) | 将Double Q的想法应用在DQN上,解决过优化问题 | +| [DuelingDQN](https://github.com/PaddlePaddle/models/blob/develop/PaddleRL/DeepQNetwork/README_cn.md) | 改进了DQN模型,提高了模型的性能 | + + + +