diff --git a/doc/fluid/user_guides/models/index_cn.rst b/doc/fluid/user_guides/models/index_cn.rst index c1edd4b98f09d6618216f627c77e260b506c0425..9444f4f2a9b82b1615854a4d55d1572f720d32a2 100644 --- a/doc/fluid/user_guides/models/index_cn.rst +++ b/doc/fluid/user_guides/models/index_cn.rst @@ -8,21 +8,21 @@ 在深度学习时代,图像分类的准确率大幅度提升,在图像分类任务中,我们向大家介绍了如何在经典的数据集ImageNet上,训练常用的模型,包括AlexNet、VGG、GoogLeNet、ResNet、Inception-v4、MobileNet、DPN(Dual Path -Network)、SE-ResNeXt模型,也开源了\ `训练的模型 `__\ 方便用户下载使用。同时提供了能够将Caffe模型转换为PaddlePaddle +Network)、SE-ResNeXt模型,也开源了\ `训练的模型 `__\ 方便用户下载使用。同时提供了能够将Caffe模型转换为PaddlePaddle Fluid模型配置和参数文件的工具。 -- `AlexNet `__ -- `VGG `__ -- `GoogleNet `__ +- `AlexNet `__ +- `VGG `__ +- `GoogleNet `__ - `Residual - Network `__ -- `Inception-v4 `__ -- `MobileNet `__ + Network `__ +- `Inception-v4 `__ +- `MobileNet `__ - `Dual Path - Network `__ -- `SE-ResNeXt `__ + Network `__ +- `SE-ResNeXt `__ - `Caffe模型转换为Paddle - Fluid配置和模型文件工具 `__ + Fluid配置和模型文件工具 `__ 目标检测 -------- @@ -36,8 +36,8 @@ COCO `__\ 数据训练通用物体检测模型, 开放环境中的检测人脸,尤其是小的、模糊的和部分遮挡的人脸也是一个具有挑战的任务。我们也介绍了如何基于 `WIDER FACE `_ 数据训练百度自研的人脸检测PyramidBox模型,该算法于2018年3月份在WIDER FACE的多项评测中均获得 `第一名 `_。 - `Single Shot MultiBox - Detector `__ -- `Face Detector: PyramidBox `_ + Detector `__ +- `Face Detector: PyramidBox `_ 图像语义分割 ------------ @@ -47,7 +47,7 @@ COCO `__\ 数据训练通用物体检测模型, 在图像语义分割任务中,我们介绍如何基于图像级联网络(Image Cascade Network,ICNet)进行语义分割,相比其他分割算法,ICNet兼顾了准确率和速度。 -- `ICNet `__ +- `ICNet `__ 图像生成 ----------- @@ -57,8 +57,8 @@ Network,ICNet)进行语义分割,相比其他分割算法,ICNet兼顾了准 在图像生成任务中,我们介绍了如何使用DCGAN和ConditioanlGAN来进行手写数字的生成,另外还介绍了用于风格迁移的CycleGAN. -- `DCGAN & ConditionalGAN `__ -- `CycleGAN `__ +- `DCGAN & ConditionalGAN `__ +- `CycleGAN `__ 场景文字识别 ------------ @@ -67,8 +67,8 @@ Network,ICNet)进行语义分割,相比其他分割算法,ICNet兼顾了准 在场景文字识别任务中,我们介绍如何将基于CNN的图像特征提取和基于RNN的序列翻译技术结合,免除人工定义特征,避免字符分割,使用自动学习到的图像特征,完成字符识别。当前,介绍了CRNN-CTC模型和基于注意力机制的序列到序列模型。 -- `CRNN-CTC模型 `__ -- `Attention模型 `__ +- `CRNN-CTC模型 `__ +- `Attention模型 `__ 度量学习 @@ -77,7 +77,7 @@ Network,ICNet)进行语义分割,相比其他分割算法,ICNet兼顾了准 度量学习也称作距离度量学习、相似度学习,通过学习对象之间的距离,度量学习能够用于分析对象时间的关联、比较关系,在实际问题中应用较为广泛,可应用于辅助分类、聚类问题,也广泛用于图像检索、人脸识别等领域。以往,针对不同的任务,需要选择合适的特征并手动构建距离函数,而度量学习可根据不同的任务来自主学习出针对特定任务的度量距离函数。度量学习和深度学习的结合,在人脸识别/验证、行人再识别(human Re-ID)、图像检索等领域均取得较好的性能,在这个任务中我们主要介绍了基于Fluid的深度度量学习模型,包含了三元组、四元组等损失函数。 -- `Metric Learning `__ +- `Metric Learning `__ 视频分类 @@ -86,7 +86,7 @@ Network,ICNet)进行语义分割,相比其他分割算法,ICNet兼顾了准 视频分类是视频理解任务的基础,与图像分类不同的是,分类的对象不再是静止的图像,而是一个由多帧图像构成的、包含语音数据、包含运动信息等的视频对象,因此理解视频需要获得更多的上下文信息,不仅要理解每帧图像是什么、包含什么,还需要结合不同帧,知道上下文的关联信息。视频分类方法主要包含基于卷积神经网络、基于循环神经网络、或将这两者结合的方法。该任务中我们介绍基于Fluid的视频分类模型,目前包含Temporal Segment Network(TSN)模型,后续会持续增加更多模型。 -- `TSN `__ +- `TSN `__ @@ -103,7 +103,7 @@ ASR 中深度学习模型端到端直接预测字词的分布不同,本实例更接近传统的语言识别流程,以音素为建模单元,关注语言识别中声学模型的训练,利用\ `kaldi `__\ 进行音频数据的特征提取和标签对齐,并集成 kaldi 的解码器完成解码。 -- `DeepASR `__ +- `DeepASR `__ 机器翻译 -------- @@ -122,7 +122,7 @@ RNN 结构的 NMT 得以应运而生,例如基于卷积神经网络 CNN Attention 学习语言中的上下文依赖。相较于RNN/CNN, 这种结构在单层内计算复杂度更低、易于并行化、对长程依赖更易建模,最终在多种语言之间取得了最好的翻译效果。 -- `Transformer `__ +- `Transformer `__ 强化学习 -------- @@ -138,7 +138,7 @@ AlphaGo 就是 DRL Q-Network, DQN)。本实例就是利用PaddlePaddle Fluid这个灵活的框架,实现了 DQN 及其变体,并测试了它们在 Atari 游戏中的表现。 -- `DeepQNetwork `__ +- `DeepQNetwork `__ 中文词法分析 ------------ @@ -163,7 +163,7 @@ DQN 及其变体,并测试了它们在 Atari 游戏中的表现。 本例所开放的DAM (Deep Attention Matching Network)为百度自然语言处理部发表于ACL-2018的工作,用于检索式聊天机器人多轮对话中应答的选择。DAM受Transformer的启发,其网络结构完全基于注意力(attention)机制,利用栈式的self-attention结构分别学习不同粒度下应答和语境的语义表示,然后利用cross-attention获取应答与语境之间的相关性,在两个大规模多轮对话数据集上的表现均好于其它模型。 -- `Deep Attention Matching Network `__ +- `Deep Attention Matching Network `__ AnyQ ---- @@ -184,7 +184,7 @@ SimNet是百度自然语言处理部于2013年自主研发的语义匹配框架 百度阅读理解数据集是由百度自然语言处理部开源的一个真实世界数据集,所有的问题、原文都来源于实际数据(百度搜索引擎数据和百度知道问答社区),答案是由人类回答的。每个问题都对应多个答案,数据集包含200k问题、1000k原文和420k答案,是目前最大的中文MRC数据集。百度同时开源了对应的阅读理解模型,称为DuReader,采用当前通用的网络分层结构,通过双向attention机制捕捉问题和原文之间的交互关系,生成query-aware的原文表示,最终基于query-aware的原文表示通过point network预测答案范围。 -- `DuReader in PaddlePaddle Fluid `__ +- `DuReader in PaddlePaddle Fluid `__ 个性化推荐