improve create_dataset_list (#56)

* improve create_dataset_list

improve create_dataset_list (#56)
* improve create_dataset_list
7465623a · LutaoChu · wuzewu · a0690c69 · 7465623a · 7465623a
隐藏空白更改
内联并排

Showing with 33 addition and 10 deletion

docs/data_prepare.md docs/data_prepare.md +13 -1

docs/imgs/file_list2.png docs/imgs/file_list2.png +0 -0

pdseg/tools/create_dataset_list.py pdseg/tools/create_dataset_list.py +20 -9

未找到文件。
--- a/docs/data_prepare.md
+++ b/docs/data_prepare.md
@@ -65,6 +65,16 @@ PaddleSeg采用通用的文件列表方式组织训练集、验证集和测试

 ![cityscapes_filelist](./imgs/file_list.png)

+若数据集缺少标注图片，则文件列表不用包含分隔符和标注图片路径，如下图所示。
+![cityscapes_filelist](./imgs/file_list2.png)
+
+**注意事项**
+
+此时的文件列表仅可在调用`pdseg/vis.py`进行可视化展示时使用，
+即仅可在`DATASET.TEST_FILE_LIST`和`DATASET.VIS_FILE_LIST`配置项中使用。
+不可在`DATASET.TRAIN_FILE_LIST`和`DATASET.VAL_FILE_LIST`配置项中使用。
+
+
 完整的配置信息可以参考[`./dataset/cityscapes_demo`](../dataset/cityscapes_demo/)目录下的yaml和文件列表。

 ### 文件列表生成
@@ -72,7 +82,9 @@ PaddleSeg提供了生成文件列表的使用脚本，可适用于自定义数
 ```
 python pdseg/tools/create_dataset_list.py <your/dataset/dir> ${FLAGS}
 ```
-运行后将在数据集根目录下生成训练/验证/测试集的文件列表（文件主名与`--second_folder`一致，扩展名为`.list`）。
+运行后将在数据集根目录下生成训练/验证/测试集的文件列表（文件主名与`--second_folder`一致，扩展名为`.txt`）。
+
+**Note:** 若训练/验证/测试集缺少标注图片，仍可自动生成不含分隔符和标注图片路径的文件列表。

 #### 命令行FLAGS列表


--- a/docs/imgs/file_list2.png
+++ b/docs/imgs/file_list2.png
--- a/pdseg/tools/create_dataset_list.py
+++ b/pdseg/tools/create_dataset_list.py
@@ -16,6 +16,7 @@
 import glob
 import os.path
 import argparse
+import warnings


 def parse_args():
@@ -110,29 +111,39 @@ def generate_list(args):
    separator = args.separator

    for dataset_split in args.second_folder:
-        print("Creating {}.list...".format(dataset_split))
+        print("Creating {}.txt...".format(dataset_split))
        image_files = get_files(0, dataset_split, args)
        label_files = get_files(1, dataset_split, args)
        if not image_files:
            img_dir = os.path.join(dataset_root, args.folder[0], dataset_split)
            print("No files in {}".format(img_dir))
-            continue
-        elif not label_files:
+        num_images = len(image_files)
+
+        if not label_files:
            label_dir = os.path.join(dataset_root, args.folder[1], dataset_split)
            print("No files in {}".format(label_dir))
+        num_label = len(label_files)
+
+        if num_images < num_label:
+            warnings.warn("number of images = {}  <  number of labels = {}."
+                          .format(num_images, num_label))
            continue

-        num_images = len(image_files)
-        file_list = os.path.join(dataset_root, dataset_split + '.list')
+        file_list = os.path.join(dataset_root, dataset_split + '.txt')
        with open(file_list, "w") as f:
            for item in range(num_images):
                left = image_files[item].replace(dataset_root, '')
                if left[0] == os.path.sep:
                    left = left.lstrip(os.path.sep)
-                right = label_files[item].replace(dataset_root, '')
-                if right[0] == os.path.sep:
-                    right = right.lstrip(os.path.sep)
-                line = left + separator + right + '\n'
+
+                try:
+                    right = label_files[item].replace(dataset_root, '')
+                    if right[0] == os.path.sep:
+                        right = right.lstrip(os.path.sep)
+                    line = left + separator + right + '\n'
+                except:
+                    line = left + '\n'
+
                f.write(line)
                print(line)