data.md 1.7 KB
Newer Older
W
wangshipeng01 已提交
1 2 3 4 5
# 数据说明

---

## 1.简介
littletomatodonkey's avatar
littletomatodonkey 已提交
6
本文档介绍ImageNet1k和flowers102数据准备过程。
W
wangshipeng01 已提交
7 8 9 10 11

## 2.数据集准备

数据集 | 训练集大小 | 测试集大小 | 类别数 | 备注|
:------:|:---------------:|:---------------------:|:-----------:|:-----------:
littletomatodonkey's avatar
littletomatodonkey 已提交
12 13
[flowers102](https://www.robots.ox.ac.uk/~vgg/data/flowers/102/)|1k | 6k | 102 |
[ImageNet1k](http://www.image-net.org/challenges/LSVRC/2012/)|1.2M| 50k | 1000 |
W
wangshipeng01 已提交
14

littletomatodonkey's avatar
littletomatodonkey 已提交
15
* 数据格式
L
littletomatodonkey 已提交
16
按照如下结构组织数据,其中`train_list.txt``val_list.txt`的格式形如:
W
wangshipeng01 已提交
17

littletomatodonkey's avatar
littletomatodonkey 已提交
18 19
```shell
# 每一行采用"空格"分隔图像路径与标注
W
fix  
wangshipeng01 已提交
20

L
littletomatodonkey 已提交
21 22
# 下面是train_list.txt中的格式样例
train/n01440764/n01440764_10026.JPEG 0
W
fix  
wangshipeng01 已提交
23 24
...

L
littletomatodonkey 已提交
25 26 27
# 下面是val_list.txt中的格式样例
val/ILSVRC2012_val_00000001.JPEG 65
...
W
fix  
wangshipeng01 已提交
28
```
L
littletomatodonkey 已提交
29

W
wangshipeng01 已提交
30 31
### ImageNet1k
从官方下载数据后,按如下组织数据
W
wangshipeng01 已提交
32 33

```bash
L
littletomatodonkey 已提交
34
PaddleClas/dataset/ILSVRC2012/
W
wangshipeng01 已提交
35
|_ train/
W
wangshipeng01 已提交
36 37 38 39 40 41 42 43
|  |_ n01440764
|  |  |_ n01440764_10026.JPEG
|  |  |_ ...
|  |_ ...
|  |
|  |_ n15075141
|     |_ ...
|     |_ n15075141_9993.JPEG
W
wangshipeng01 已提交
44
|_ val/
W
wangshipeng01 已提交
45 46 47 48 49
|  |_ ILSVRC2012_val_00000001.JPEG
|  |_ ...
|  |_ ILSVRC2012_val_00050000.JPEG
|_ train_list.txt
|_ val_list.txt
W
wangshipeng01 已提交
50
```
L
littletomatodonkey 已提交
51

littletomatodonkey's avatar
littletomatodonkey 已提交
52
### Flowers102
W
fix  
wangshipeng01 已提交
53
[VGG官方网站](https://www.robots.ox.ac.uk/~vgg/data/flowers/102/)下载后的数据,解压后包括
littletomatodonkey's avatar
littletomatodonkey 已提交
54 55

```shell
W
wangshipeng01 已提交
56 57 58
jpg/
setid.mat
imagelabels.mat
littletomatodonkey's avatar
littletomatodonkey 已提交
59 60
```

littletomatodonkey's avatar
littletomatodonkey 已提交
61
将以上文件放置在PaddleClas/dataset/flowers102/下
W
wangshipeng01 已提交
62

littletomatodonkey's avatar
littletomatodonkey 已提交
63
通过运行generate_flowers102_list.py生成train_list.txt和val_list.txt
W
wangshipeng01 已提交
64 65

```bash
littletomatodonkey's avatar
littletomatodonkey 已提交
66 67
python generate_flowers102_list.py jpg train > train_list.txt
python generate_flowers102_list.py jpg valid > val_list.txt
W
wangshipeng01 已提交
68 69 70 71 72

```
按照如下结构组织数据:

```bash
littletomatodonkey's avatar
littletomatodonkey 已提交
73
PaddleClas/dataset/flowers102/
W
wangshipeng01 已提交
74
|_ jpg/
littletomatodonkey's avatar
littletomatodonkey 已提交
75
|  |_ image_03601.jpg
W
wangshipeng01 已提交
76 77 78 79 80
|  |_ ...
|  |_ image_02355.jpg
|_ train_list.txt
|_ val_list.txt
```