Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleClas
提交
1afcc785
P
PaddleClas
项目概览
PaddlePaddle
/
PaddleClas
1 年多 前同步成功
通知
115
Star
4999
Fork
1114
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
19
列表
看板
标记
里程碑
合并请求
6
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleClas
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
19
Issue
19
列表
看板
标记
里程碑
合并请求
6
合并请求
6
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
1afcc785
编写于
10月 25, 2021
作者:
G
gaotingquan
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
docs: update description of preparing classification data
上级
731b2649
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
83 addition
and
0 deletion
+83
-0
docs/zh_CN_tmp/data_preparation/classification_dataset.md
docs/zh_CN_tmp/data_preparation/classification_dataset.md
+83
-0
未找到文件。
docs/zh_CN_tmp/data_preparation/classification_dataset.md
0 → 100644
浏览文件 @
1afcc785
# 图像分类任务数据集说明
本文档将介绍 PaddleClas 所使用的数据集格式,以及图像分类任务的主要数据集,包括 ImageNet1k 和 flowers102 的介绍。
---
## 1. 数据集格式说明
PaddleClas 使用
`txt`
格式文件指定训练集和测试集,以
`ImageNet1k`
数据集为例,其中
`train_list.txt`
和
`val_list.txt`
的格式形如:
```
shell
# 每一行采用"空格"分隔图像路径与标注
# 下面是train_list.txt中的格式样例
train/n01440764/n01440764_10026.JPEG 0
...
# 下面是val_list.txt中的格式样例
val/ILSVRC2012_val_00000001.JPEG 65
...
```
## 2. ImageNet1k 数据集
数据集 | 训练集大小 | 测试集大小 | 类别数 | 备注|
:------:|:---------------:|:---------------------:|:-----------:|:-----------:
[
ImageNet1k
](
http://www.image-net.org/challenges/LSVRC/2012/
)
|1.2M| 50k | 1000 |
从官方下载数据后,按如下组织数据
```
bash
PaddleClas/dataset/ILSVRC2012/
|_ train/
| |_ n01440764
| | |_ n01440764_10026.JPEG
| | |_ ...
| |_ ...
| |
| |_ n15075141
| |_ ...
| |_ n15075141_9993.JPEG
|_ val/
| |_ ILSVRC2012_val_00000001.JPEG
| |_ ...
| |_ ILSVRC2012_val_00050000.JPEG
|_ train_list.txt
|_ val_list.txt
```
## 3. Flowers102 数据集
数据集 | 训练集大小 | 测试集大小 | 类别数 | 备注|
:------:|:---------------:|:---------------------:|:-----------:|:-----------:
[
flowers102
](
https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
)
|1k | 6k | 102 |
将下载的数据解压后,可以看到以下目录
```
shell
jpg/
setid.mat
imagelabels.mat
```
将以上文件放置在
`PaddleClas/dataset/flowers102/`
下
通过运行
`generate_flowers102_list.py`
生成
`train_list.txt`
和
`val_list.txt`
:
```
shell
python generate_flowers102_list.py jpg train
>
train_list.txt
python generate_flowers102_list.py jpg valid
>
val_list.txt
```
按照如下结构组织数据:
```
shell
PaddleClas/dataset/flowers102/
|_ jpg/
| |_ image_03601.jpg
| |_ ...
| |_ image_02355.jpg
|_ train_list.txt
|_ val_list.txt
```
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录