提交 342766ad 编写于 作者: W wangshipeng01

add data doc

上级 88386675
# 数据说明
---
## 1.简介
PaddleClas支持ImageNet1000和Flower数据分类任务。
PaddleClas提供了丰富的预训练模型,支持的模型列表请参考[模型库](../models/models_intro.md)
## 2.数据集准备
数据集 | 训练集大小 | 测试集大小 | 类别数 | 备注|
:------:|:---------------:|:---------------------:|:-----------:|:-----------:
Flowers|1k | 6k | 102 |
[ImageNet](http://www.image-net.org/challenges/LSVRC/2012/)|1.2M| 50k | 1000 |
数据格式
PaddleClas加载PaddleClas/dataset/中的数据,请将下载后的数据按下面格式组织放置到PaddleClas/dataset/中。
```bash
PaddleClas/dataset/imagenet
|_ train
| |_ n01440764
| | |_ n01440764_10026.JPEG
| | |_ ...
| |_ ...
| |
| |_ n15075141
| |_ ...
| |_ n15075141_9993.JPEG
|_ val
| |_ ILSVRC2012_val_00000001.JPEG
| |_ ...
| |_ ILSVRC2012_val_00050000.JPEG
|_ train_list.txt
|_ val_list.txt
```bash
PaddleClas/dataset/flower
|_ train
| |_ image_03601.jpg
| |_ ...
| |_ image_07073.jpg
|_ val
| |_ image_04121.jpg
| |_ ...
| |_ image_02355.jpg
|_ train_list.txt
|_ val_list.txt
```
或是通过软链接将数据从实际地址链接到PaddleClas/dataset/下
```bash
#imagenet
ln -s actual_path/imagenet path_to_PaddleClas/dataset/imagenet
#flower
ln -s actual_path/flower path_to_PaddleClas/dataset/flower
```
## 3.下载预训练模型
通过tools/download.py下载所需要的预训练模型。
```bash
python tools/download.py -a ResNet50_vd -p ./pretrained -d True
```
参数说明:
+ `architecture`(简写 a):模型结构
+ `path`(简写 p):下载路径
+ `decompress` (简写 d):是否解压
# 开始使用
---
请事先参考[安装指南](install.md)配置运行环境
有关模型库的基本信息请参考[README](https://github.com/PaddlePaddle/PaddleClas/blob/master/README.md)
## 一、设置环境变量
......
......@@ -4,33 +4,43 @@
## 1.简介
本章将介绍如何安装PaddleClas及其依赖项,准备ImageNet1k图像分类数据集和下载预训练模型。
本章将介绍如何安装PaddleClas及其依赖项.
有关模型库的基本信息请参考[README](https://github.com/PaddlePaddle/PaddleClas/blob/master/README.md)
## 2.安装PaddlePaddle
运行PaddleClas需要PaddlePaddle Fluid v1.7或更高版本。请按照[安装文档](http://www.paddlepaddle.org.cn/install/quick)中的说明进行操作。
运行PaddleClas需要PaddlePaddle Fluid v1.7或更高版本。
使用以下命令进行验证。
pip安装最新GPU版本PaddlePaddle
```bash
pip install paddlepaddle-gpu --upgrade
```
# 在您的Python解释器中确认PaddlePaddle安装成功
>>> import paddle.fluid as fluid
>>> fluid.install_check.run_check()
# 确认PaddlePaddle版本
python -c "import paddle; print(paddle.__version__)"
或是从源码安装PaddlePaddle,具体参照[安装文档](http://www.paddlepaddle.org.cn/install/quick)中的说明进行操作。
使用以下命令验证
```python
import paddle.fluid as fluid
fluid.install_check.run_check()
```
查看PaddlePaddle版本
```bash
python -c "import paddle; print(paddle.__version__)"
```
注意:
- 从源码编译的PaddlePaddle版本号为0.0.0,请确保使用了Fluid v1.7之后的源码编译。
- PaddleClas基于PaddlePaddle高性能的分布式训练能力,若您从源码编译,请确保打开编译选项,**WITH_DISTRIBUTE=ON**
- PaddleClas基于PaddlePaddle高性能的分布式训练能力,若您从源码编译,请确保打开编译选项,**WITH_DISTRIBUTE=ON**。具体编译选项参考[编译选项表](https://www.paddlepaddle.org.cn/documentation/docs/zh/develop/install/Tables.html#id3)
**环境需求:**
**运行环境需求:**
- Python2(官方已不提供更新维护)或Python3 (windows系统仅支持Python3)
- CUDA >= 8.0
- CUDA >= 9.0
- cuDNN >= 5.0
- nccl >= 2.1.2
......@@ -53,40 +63,12 @@ pip install --upgrade -r requirements.txt
```
## 4.下载ImageNet1K图像分类数据集
## 4.数据集和预训练模型
PaddleClas默认支持ImageNet1000分类任务。
在Linux系统下通过如下方式进行数据准备:
```
cd dataset/ILSVRC2012/
sh download_imagenet2012.sh
```
```download_imagenet2012.sh```脚本中,通过下面三步来准备数据:
PaddleClas加载PaddleClas/dataset/中数据进行训练,请参照[数据文档](./data.md)进行准备。
PaddleClas提供丰富的预训练模型,请参照[数据文档](./data.md)进行准备。
**步骤一:** 首先在```image-net.org```网站上完成注册,用于获得一对```Username``````AccessKey```
**步骤二:** 从ImageNet官网下载ImageNet-2012的图像数据。训练以及验证数据集会分别被下载到"train" 和 "val" 目录中。注意,ImageNet数据的大小超过140GB,下载非常耗时;已经自行下载ImageNet的用户可以直接将数据按"train" 和 "val" 目录放到```dataset/ILSVRC2012```
## 5.开始使用
**步骤三:** 下载训练与验证集合对应的标签文件。
* train_list.txt: ImageNet-2012训练集合的标签文件,每一行采用"空格"分隔图像路径与标注,例如:
```
train/n02483708/n02483708_2436.jpeg 369
```
* val_list.txt: ImageNet-2012验证集合的标签文件,每一行采用"空格"分隔图像路径与标注,例如:
```
val/ILSVRC2012_val_00000001.jpeg 65
```
**Windows系统下请用户自行下载ImageNet数据,[label下载链接](http://paddle-imagenet-models.bj.bcebos.com/ImageNet_label.tgz)**
## 5.下载预训练模型
PaddleClas 提供了丰富的预训练模型,支持的模型列表请参考[模型库](../models/models_intro.md)
通过tools/download.py可以下载所需要的预训练模型。
```bash
python tools/download.py -a ResNet50_vd -p ./pretrained -d True
```
请参照[开始使用](./getting_started.md)文档
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册