docs: update data format description of recognition

44822cf1 · gaotingquan · 67cd9eff · 44822cf1
隐藏空白更改
内联并排

Showing with 20 addition and 1 deletion

docs/zh_CN_tmp/data_preparation/recognition_dataset.md docs/zh_CN_tmp/data_preparation/recognition_dataset.md +20 -1

未找到文件。
--- a/docs/zh_CN_tmp/data_preparation/recognition_dataset.md
+++ b/docs/zh_CN_tmp/data_preparation/recognition_dataset.md
@@ -6,7 +6,26 @@
 ## 1. 数据集格式说明
-TODO
+与分类任务数据集不同，图像检索任务的数据集分为以下三部分：
+* 训练集合（train dataset）：用来训练模型，使模型能够学习该集合的图像特征。
+* 底库数据集合（gallery dataset）：用来提供图像检索任务中的底库数据，该集合可与训练集或测试集相同，也可以不同，当与训练集相同时，测试集的类别体系应与训练集的类别体系相同。
+* 测试数据集合（query dataset）：用来测试模型的好坏，通常要对测试集的每一张测试图片进行特征提取，之后和底库数据的特征进行距离匹配，得到识别结果，后根据识别结果计算整个测试集的指标。
+训练集、底库数据集和测试数据集均使用 `txt` 文件指定，以 `CUB_200_2011` 数据集为例，训练数据集 `train_list.txt` 文件内容格式如下所示：
+```shell
+# 采用"空格"作为分隔符号
+...
+train/99/Ovenbird_0136_92859.jpg 99 2
+...
+train/99/Ovenbird_0128_93366.jpg 99 6
+...
+```
+每行数据使用“空格”分割，三列数据的含义分别是训练数据的路径、训练数据的label信息、训练数据的unique id。
+**注意**：当gallery dataset和query dataset相同时，为了去掉检索得到的第一个数据（检索图片本身无须评估），每个数据需要对应一个unique id，用于后续评测mAP、recall@1等指标。
 ## 2. 图像识别任务常见数据集介绍