From 342766ad375cc296dce18f93060447a432a654f3 Mon Sep 17 00:00:00 2001 From: wangshipeng01 Date: Wed, 15 Apr 2020 10:54:00 +0000 Subject: [PATCH] add data doc --- docs/zh_CN/tutorials/data.md | 74 +++++++++++++++++++++++++ docs/zh_CN/tutorials/getting_started.md | 1 + docs/zh_CN/tutorials/install.md | 72 +++++++++--------------- 3 files changed, 102 insertions(+), 45 deletions(-) create mode 100644 docs/zh_CN/tutorials/data.md diff --git a/docs/zh_CN/tutorials/data.md b/docs/zh_CN/tutorials/data.md new file mode 100644 index 00000000..5b2bead3 --- /dev/null +++ b/docs/zh_CN/tutorials/data.md @@ -0,0 +1,74 @@ +# 数据说明 + +--- + +## 1.简介 +PaddleClas支持ImageNet1000和Flower数据分类任务。 +PaddleClas提供了丰富的预训练模型,支持的模型列表请参考[模型库](../models/models_intro.md) + +## 2.数据集准备 + +数据集 | 训练集大小 | 测试集大小 | 类别数 | 备注| +:------:|:---------------:|:---------------------:|:-----------:|:-----------: +Flowers|1k | 6k | 102 | +[ImageNet](http://www.image-net.org/challenges/LSVRC/2012/)|1.2M| 50k | 1000 | + +数据格式 + +PaddleClas加载PaddleClas/dataset/中的数据,请将下载后的数据按下面格式组织放置到PaddleClas/dataset/中。 + +```bash +PaddleClas/dataset/imagenet +|_ train +| |_ n01440764 +| | |_ n01440764_10026.JPEG +| | |_ ... +| |_ ... +| | +| |_ n15075141 +| |_ ... +| |_ n15075141_9993.JPEG +|_ val +| |_ ILSVRC2012_val_00000001.JPEG +| |_ ... +| |_ ILSVRC2012_val_00050000.JPEG +|_ train_list.txt +|_ val_list.txt + +```bash +PaddleClas/dataset/flower +|_ train +| |_ image_03601.jpg +| |_ ... +| |_ image_07073.jpg +|_ val +| |_ image_04121.jpg +| |_ ... +| |_ image_02355.jpg +|_ train_list.txt +|_ val_list.txt +``` + + +或是通过软链接将数据从实际地址链接到PaddleClas/dataset/下 + +```bash +#imagenet +ln -s actual_path/imagenet path_to_PaddleClas/dataset/imagenet + +#flower +ln -s actual_path/flower path_to_PaddleClas/dataset/flower + +``` + +## 3.下载预训练模型 +通过tools/download.py下载所需要的预训练模型。 + +```bash +python tools/download.py -a ResNet50_vd -p ./pretrained -d True +``` + +参数说明: ++ `architecture`(简写 a):模型结构 ++ `path`(简写 p):下载路径 ++ `decompress` (简写 d):是否解压 diff --git a/docs/zh_CN/tutorials/getting_started.md b/docs/zh_CN/tutorials/getting_started.md index 2e133457..8546ae36 100644 --- a/docs/zh_CN/tutorials/getting_started.md +++ b/docs/zh_CN/tutorials/getting_started.md @@ -1,6 +1,7 @@ # 开始使用 --- 请事先参考[安装指南](install.md)配置运行环境 +有关模型库的基本信息请参考[README](https://github.com/PaddlePaddle/PaddleClas/blob/master/README.md) ## 一、设置环境变量 diff --git a/docs/zh_CN/tutorials/install.md b/docs/zh_CN/tutorials/install.md index 74cbc898..c0d1807f 100644 --- a/docs/zh_CN/tutorials/install.md +++ b/docs/zh_CN/tutorials/install.md @@ -4,33 +4,43 @@ ## 1.简介 -本章将介绍如何安装PaddleClas及其依赖项,准备ImageNet1k图像分类数据集和下载预训练模型。 +本章将介绍如何安装PaddleClas及其依赖项. +有关模型库的基本信息请参考[README](https://github.com/PaddlePaddle/PaddleClas/blob/master/README.md) ## 2.安装PaddlePaddle -运行PaddleClas需要PaddlePaddle Fluid v1.7或更高版本。请按照[安装文档](http://www.paddlepaddle.org.cn/install/quick)中的说明进行操作。 +运行PaddleClas需要PaddlePaddle Fluid v1.7或更高版本。 -使用以下命令进行验证。 +pip安装最新GPU版本PaddlePaddle +```bash +pip install paddlepaddle-gpu --upgrade ``` -# 在您的Python解释器中确认PaddlePaddle安装成功 ->>> import paddle.fluid as fluid ->>> fluid.install_check.run_check() -# 确认PaddlePaddle版本 -python -c "import paddle; print(paddle.__version__)" +或是从源码安装PaddlePaddle,具体参照[安装文档](http://www.paddlepaddle.org.cn/install/quick)中的说明进行操作。 +使用以下命令验证 + +```python +import paddle.fluid as fluid +fluid.install_check.run_check() ``` + +查看PaddlePaddle版本 + +```bash +python -c "import paddle; print(paddle.__version__)" +``` + 注意: - 从源码编译的PaddlePaddle版本号为0.0.0,请确保使用了Fluid v1.7之后的源码编译。 -- PaddleClas基于PaddlePaddle高性能的分布式训练能力,若您从源码编译,请确保打开编译选项,**WITH_DISTRIBUTE=ON**。 - +- PaddleClas基于PaddlePaddle高性能的分布式训练能力,若您从源码编译,请确保打开编译选项,**WITH_DISTRIBUTE=ON**。具体编译选项参考[编译选项表](https://www.paddlepaddle.org.cn/documentation/docs/zh/develop/install/Tables.html#id3) -**环境需求:** +**运行环境需求:** - Python2(官方已不提供更新维护)或Python3 (windows系统仅支持Python3) -- CUDA >= 8.0 +- CUDA >= 9.0 - cuDNN >= 5.0 - nccl >= 2.1.2 @@ -53,40 +63,12 @@ pip install --upgrade -r requirements.txt ``` -## 4.下载ImageNet1K图像分类数据集 +## 4.数据集和预训练模型 -PaddleClas默认支持ImageNet1000分类任务。 -在Linux系统下通过如下方式进行数据准备: - -``` -cd dataset/ILSVRC2012/ -sh download_imagenet2012.sh -``` -在```download_imagenet2012.sh```脚本中,通过下面三步来准备数据: +PaddleClas加载PaddleClas/dataset/中数据进行训练,请参照[数据文档](./data.md)进行准备。 +PaddleClas提供丰富的预训练模型,请参照[数据文档](./data.md)进行准备。 -**步骤一:** 首先在```image-net.org```网站上完成注册,用于获得一对```Username```和```AccessKey```。 -**步骤二:** 从ImageNet官网下载ImageNet-2012的图像数据。训练以及验证数据集会分别被下载到"train" 和 "val" 目录中。注意,ImageNet数据的大小超过140GB,下载非常耗时;已经自行下载ImageNet的用户可以直接将数据按"train" 和 "val" 目录放到```dataset/ILSVRC2012```。 +## 5.开始使用 -**步骤三:** 下载训练与验证集合对应的标签文件。 - -* train_list.txt: ImageNet-2012训练集合的标签文件,每一行采用"空格"分隔图像路径与标注,例如: -``` -train/n02483708/n02483708_2436.jpeg 369 -``` -* val_list.txt: ImageNet-2012验证集合的标签文件,每一行采用"空格"分隔图像路径与标注,例如: -``` -val/ILSVRC2012_val_00000001.jpeg 65 -``` - -**Windows系统下请用户自行下载ImageNet数据,[label下载链接](http://paddle-imagenet-models.bj.bcebos.com/ImageNet_label.tgz)** - - - -## 5.下载预训练模型 -PaddleClas 提供了丰富的预训练模型,支持的模型列表请参考[模型库](../models/models_intro.md)。 -通过tools/download.py可以下载所需要的预训练模型。 - -```bash -python tools/download.py -a ResNet50_vd -p ./pretrained -d True -``` +请参照[开始使用](./getting_started.md)文档 -- GitLab