diff --git a/docs/en/algorithm_introduction/Metric_Learning_en_US.md b/docs/en/algorithm_introduction/metric_learning_en.md similarity index 100% rename from docs/en/algorithm_introduction/Metric_Learning_en_US.md rename to docs/en/algorithm_introduction/metric_learning_en.md diff --git a/docs/en/image_recognition_pipeline/Feature_Extraction_en_US.md b/docs/en/image_recognition_pipeline/feature_extraction_en.md similarity index 100% rename from docs/en/image_recognition_pipeline/Feature_Extraction_en_US.md rename to docs/en/image_recognition_pipeline/feature_extraction_en.md diff --git a/docs/en/inference_deployment/Model_Service_Deployment_en_US.md b/docs/en/inference_deployment/paddle_serving_deploy_en.md similarity index 100% rename from docs/en/inference_deployment/Model_Service_Deployment_en_US.md rename to docs/en/inference_deployment/paddle_serving_deploy_en.md diff --git a/docs/zh_CN/algorithm_introduction/metric_learning.md b/docs/zh_CN/algorithm_introduction/metric_learning.md index e560327561eb48870026a1566b73c2b45ef4f030..07cbda8177822763f24ced81702c1ef69f590dcd 100644 --- a/docs/zh_CN/algorithm_introduction/metric_learning.md +++ b/docs/zh_CN/algorithm_introduction/metric_learning.md @@ -5,20 +5,20 @@ * [1. 简介](#1) * [2. 应用](#2) * [3. 算法](#3) - * [3.1 Classification based](#3.1) - * [3.2 Pairwise based](#3.2) + * [3.1 Classification based](#3.1) + * [3.2 Pairwise based](#3.2) ## 1. 简介 在机器学习中,我们经常会遇到度量数据间距离的问题。一般来说,对于可度量的数据,我们可以直接通过欧式距离(Euclidean Distance),向量内积(Inner Product)或者是余弦相似度(Cosine Similarity)来进行计算。但对于非结构化数据来说,我们却很难进行这样的操作,如计算一段视频和一首音乐的匹配程度。由于数据格式的不同,我们难以直接进行上述的向量运算,但先验知识告诉我们 ED(laugh_video, laugh_music) < ED(laugh_video, blue_music), 如何去有效得表征这种”距离”关系呢? 这就是 Metric Learning 所要研究的课题。 - + Metric learning 全称是 Distance Metric Learning,它是通过机器学习的形式,根据训练数据,自动构造出一种基于特定任务的度量函数。Metric Learning 的目标是学习一个变换函数(线性非线性均可)L,将数据点从原始的向量空间映射到一个新的向量空间,在新的向量空间里相似点的距离更近,非相似点的距离更远,使得度量更符合任务的要求,如下图所示。 Deep Metric Learning,就是用深度神经网络来拟合这个变换函数。 ![example](../../images/ml_illustration.jpg) ## 2. 应用 - Metric Learning 技术在生活实际中应用广泛,如我们耳熟能详的人脸识别(Face Recognition)、行人重识别(Person ReID)、图像检索(Image Retrieval)、细粒度分类(Fine-gained classification)等。随着深度学习在工业实践中越来越广泛的应用,目前大家研究的方向基本都偏向于 Deep Metric Learning(DML). - + Metric Learning 技术在生活实际中应用广泛,如我们耳熟能详的人脸识别(Face Recognition)、行人重识别(Person ReID)、图像检索(Image Retrieval)、细粒度分类(Fine-grained classification)等。随着深度学习在工业实践中越来越广泛的应用,目前大家研究的方向基本都偏向于 Deep Metric Learning(DML). + 一般来说, DML 包含三个部分: 特征提取网络来 map embedding, 一个采样策略来将一个 mini-batch 里的样本组合成很多个 sub-set, 最后 loss function 在每个 sub-set 上计算 loss. 如下图所示: ![image](../../images/ml_pipeline.jpg) @@ -27,11 +27,10 @@ Metric Learning 主要有如下两种学习范式: ### 3.1 Classification based: - 这是一类基于分类标签的 Metric Learning 方法。这类方法通过将每个样本分类到正确的类别中,来学习有效的特征表示,学习过程中需要每个样本的显式标签参与 Loss 计算。常见的算法有 [L2-Softmax](https://arxiv.org/abs/1703.09507), [Large-margin Softmax](https://arxiv.org/abs/1612.02295), [Angular Softmax](https://arxiv.org/pdf/1704.08063.pdf), [NormFace](https://arxiv.org/abs/1704.06369), [AM-Softmax](https://arxiv.org/abs/1801.05599), [CosFace](https://arxiv.org/abs/1801.09414), [ArcFace](https://arxiv.org/abs/1801.07698)等。 + 这是一类基于分类标签的 Metric Learning 方法。这类方法通过将每个样本分类到正确的类别中,来学习有效的特征表示,学习过程中需要每个样本的显式标签参与 Loss 计算。常见的算法有 [L2-Softmax](https://arxiv.org/abs/1703.09507), [Large-margin Softmax](https://arxiv.org/abs/1612.02295), [Angular Softmax](https://arxiv.org/pdf/1704.08063.pdf), [NormFace](https://arxiv.org/abs/1704.06369), [AM-Softmax](https://arxiv.org/abs/1801.05599), [CosFace](https://arxiv.org/abs/1801.09414), [ArcFace](https://arxiv.org/abs/1801.07698)等。 这类方法也被称作是 proxy-based, 因为其本质上优化的是样本和一堆 proxies 之间的相似度。 -### 3.2 Pairwise based: +### 3.2 Pairwise based: 这是一类基于样本对的学习范式。他以样本对作为输入,通过直接学习样本对之间的相似度来得到有效的特征表示,常见的算法包括:[Contrastive loss](http://yann.lecun.com/exdb/publis/pdf/hadsell-chopra-lecun-06.pdf), [Triplet loss](https://arxiv.org/abs/1503.03832), [Lifted-Structure loss](https://arxiv.org/abs/1511.06452), [N-pair loss](https://papers.nips.cc/paper/2016/file/6b180037abbebea991d8b1232f8a8ca9-Paper.pdf), [Multi-Similarity loss](https://arxiv.org/pdf/1904.06627.pdf)等 2020 年发表的[CircleLoss](https://arxiv.org/abs/2002.10857),从一个全新的视角统一了两种学习范式,让研究人员和从业者对 Metric Learning 问题有了更进一步的思考。 - diff --git a/docs/zh_CN/image_recognition_pipeline/feature_extraction.md b/docs/zh_CN/image_recognition_pipeline/feature_extraction.md index d7c75e8ad249f1bcdbef2c847d5445e1a6f91036..1a3820880dc253a398a071f5aba54dfde143a4f0 100644 --- a/docs/zh_CN/image_recognition_pipeline/feature_extraction.md +++ b/docs/zh_CN/image_recognition_pipeline/feature_extraction.md @@ -13,13 +13,13 @@ - [4.4.1 导出推理模型](#4.4.1) - [4.4.2 获取特征向量](#4.4.2) - + ## 1. 简介 特征提取是图像识别中的关键一环,它的作用是将输入的图片转化为固定维度的特征向量,用于后续的[向量检索](./vector_search.md)。好的特征需要具备相似度保持性,即在特征空间中,相似度高的图片对其特征相似度要比较高(距离比较近),相似度低的图片对,其特征相似度要比较小(距离比较远)。[Deep Metric Learning](../algorithm_introduction/metric_learning.md)用以研究如何通过深度学习的方法获得具有强表征能力的特征。 - + ## 2. 网络结构 为了图像识别任务的灵活定制,我们将整个网络分为 Backbone、 Neck、 Head 以及 Loss 部分,整体结构如下图所示: @@ -29,9 +29,9 @@ - **Backbone**: 指定所使用的骨干网络。 值得注意的是,PaddleClas 提供的基于 ImageNet 的预训练模型,最后一层的输出为 1000,我们需要依据所需的特征维度定制最后一层的输出。 - **Neck**: 用以特征增强及特征维度变换。这儿的 Neck,可以是一个简单的 Linear Layer,用来做特征维度变换;也可以是较复杂的 FPN 结构,用以做特征增强。 - **Head**: 用来将 feature 转化为 logits。除了常用的 Fc Layer 外,还可以替换为 cosmargin, arcmargin, circlemargin 等模块。 -- **Loss**: 指定所使用的 Loss 函数。我们将 Loss 设计为组合 loss 的形式,可以方便得将 Classification Loss 和 Pair_wise Loss 组合在一起。 +- **Loss**: 指定所使用的 Loss 函数。我们将 Loss 设计为组合 loss 的形式,可以方便地将 Classification Loss 和 Pair_wise Loss 组合在一起。 - + ## 3. 通用识别模型 @@ -59,20 +59,20 @@ PP-LCNet-2.5x | 0.839 | 0.888 | 0.861 | 0.841 | 0.793 | 0.892 | 5.0 * 速度指标的评测条件为: 开启 MKLDNN, 线程数设置为 10 * 预训练模型地址:[通用识别预训练模型](https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/rec/models/pretrain/general_PPLCNet_x2_5_pretrained_v1.0.pdparams) - + ## 4. 自定义特征提取 自定义特征提取,是指依据自己的任务,重新训练特征提取模型。主要包含四个步骤:1)数据准备;2)模型训练;3)模型评估;4)模型推理。 - + ### 4.1 数据准备 首先,需要基于任务定制自己的数据集。数据集格式参见[格式说明](https://github.com/PaddlePaddle/PaddleClas/blob/develop/docs/zh_CN/data_preparation/recognition_dataset.md#%E6%95%B0%E6%8D%AE%E9%9B%86%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E)。在启动模型训练之前,需要在配置文件中修改数据配置相关的内容, 主要包括数据集的地址以及类别数量。对应到配置文件中的位置如下所示: ``` Head: - name: ArcMargin + name: ArcMargin embedding_size: 512 class_num: 185341 #此处表示类别数 ``` @@ -85,20 +85,20 @@ PP-LCNet-2.5x | 0.839 | 0.888 | 0.861 | 0.841 | 0.793 | 0.892 | 5.0 ``` ``` Query: - dataset: + dataset: name: VeriWild image_root: ./dataset/Aliproduct/. #此处表示query数据集所在的目录 cls_label_path: ./dataset/Aliproduct/val_list.txt. #此处表示query数据集label文件的地址 ``` ``` Gallery: - dataset: + dataset: name: VeriWild image_root: ./dataset/Aliproduct/ #此处表示gallery数据集所在的目录 cls_label_path: ./dataset/Aliproduct/val_list.txt. #此处表示gallery数据集label文件的地址 ``` - + ### 4.2 模型训练 @@ -114,7 +114,7 @@ python -m paddle.distributed.launch \ --gpus="0,1,2,3" tools/train.py \ -c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml ``` -**注意:** +**注意:** 配置文件中默认采用`在线评估`的方式,如果你想加快训练速度,去除`在线评估`,只需要在上述命令后面,增加 `-o eval_during_train=False`。训练完毕后,在 output 目录下会生成最终模型文件 `latest`,`best_model` 和训练日志文件 `train.log`。其中,`best_model` 用来存储当前评测指标下的最佳模型;`latest` 用来存储最新生成的模型, 方便在任务中断的情况下从断点位置启动训练。 - 断点续训: @@ -126,7 +126,7 @@ python -m paddle.distributed.launch \ -o Global.checkpoint="output/RecModel/latest" ``` - + ### 4.3 模型评估 @@ -148,13 +148,13 @@ python -m paddle.distributed.launch \ ``` **推荐:** 建议使用多卡评估。多卡评估方式可以利用多卡并行计算快速得到整体数据集的特征集合,能够加速评估的过程。 - + ### 4.4 模型推理 推理过程包括两个步骤: 1)导出推理模型; 2)获取特征向量 - + #### 4.4.1 导出推理模型 @@ -166,7 +166,7 @@ python tools/export_model \ 生成的推理模型位于 `inference` 目录,里面包含三个文件,分别为 `inference.pdmodel`、`inference.pdiparams`、`inference.pdiparams.info`。 其中: `inference.pdmodel` 用来存储推理模型的结构, `inference.pdiparams` 和 `inference.pdiparams.info` 用来存储推理模型相关的参数信息。 - + #### 4.4.2 获取特征向量