data.md 1.9 KB
Newer Older
W
wangshipeng01 已提交
1 2 3 4 5
# 数据说明

---

## 1.简介
W
wangshipeng01 已提交
6
本文档介绍ImageNet1k和Flower102数据准备过程。
W
fix  
wangshipeng01 已提交
7
以及PaddleClas提供了丰富的[预训练模型](../models/models_intro.md)
W
wangshipeng01 已提交
8 9 10 11 12

## 2.数据集准备

数据集 | 训练集大小 | 测试集大小 | 类别数 | 备注|
:------:|:---------------:|:---------------------:|:-----------:|:-----------:
W
wangshipeng01 已提交
13 14
[Flower102](https://www.robots.ox.ac.uk/~vgg/data/flowers/102/)|1k | 6k | 102 | 
[ImageNet1k](http://www.image-net.org/challenges/LSVRC/2012/)|1.2M| 50k | 1000 | 
W
wangshipeng01 已提交
15 16

数据格式
W
fix  
wangshipeng01 已提交
17
按照如下结构组织数据,其中train_list.txt 和val_list.txt的格式形如
W
wangshipeng01 已提交
18

W
fix  
wangshipeng01 已提交
19
```
W
fix  
wangshipeng01 已提交
20
#每一行采用"空格"分隔图像路径与标注
W
fix  
wangshipeng01 已提交
21 22 23 24 25

ILSVRC2012_val_00000001.JPEG 65
...

```
W
wangshipeng01 已提交
26 27
### ImageNet1k
从官方下载数据后,按如下组织数据
W
wangshipeng01 已提交
28 29

```bash
W
wangshipeng01 已提交
30 31
PaddleClas/dataset/imagenet/
|_ train/
W
wangshipeng01 已提交
32 33 34 35 36 37 38 39
|  |_ n01440764
|  |  |_ n01440764_10026.JPEG
|  |  |_ ...
|  |_ ...
|  |
|  |_ n15075141
|     |_ ...
|     |_ n15075141_9993.JPEG
W
wangshipeng01 已提交
40
|_ val/
W
wangshipeng01 已提交
41 42 43 44 45
|  |_ ILSVRC2012_val_00000001.JPEG
|  |_ ...
|  |_ ILSVRC2012_val_00050000.JPEG
|_ train_list.txt
|_ val_list.txt
W
wangshipeng01 已提交
46
```
W
wangshipeng01 已提交
47
### Flower
W
fix  
wangshipeng01 已提交
48
[VGG官方网站](https://www.robots.ox.ac.uk/~vgg/data/flowers/102/)下载后的数据,解压后包括
W
wangshipeng01 已提交
49 50 51 52 53 54
jpg/
setid.mat
imagelabels.mat
将以上文件放置在PaddleClas/dataset/flower102/下

通过运行generate_flower_list.py生成train_list.txt和val_list.txt
W
wangshipeng01 已提交
55 56

```bash
W
wangshipeng01 已提交
57 58 59 60 61 62 63 64 65
python generate_flower_list.py jpg train > train_list.txt
python generate_flower_list.py jpg valid > val_list.txt

```
按照如下结构组织数据:

```bash
PaddleClas/dataset/flower102/
|_ jpg/
W
wangshipeng01 已提交
66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
|  |_ image_03601.jpg 
|  |_ ...
|  |_ image_02355.jpg
|_ train_list.txt
|_ val_list.txt
```


## 3.下载预训练模型
通过tools/download.py下载所需要的预训练模型。

```bash
python tools/download.py -a ResNet50_vd -p ./pretrained -d True
```

参数说明:
+ `architecture`(简写 a):模型结构
+ `path`(简写 p):下载路径
+ `decompress` (简写 d):是否解压