add tools for voc dataset to coco (#1348)

56cbc020 · Guanghua Yu · GitHub · 74410ff9 · 56cbc020 · 56cbc020
7 changed file
--- a/docs/advanced_tutorials/READER.md
+++ b/docs/advanced_tutorials/READER.md
@@ -34,8 +34,6 @@ PaddleDetection的数据处理模块是一个Python模块，所有代码逻辑
  ├── tests  # 单元测试模块
  │   ├── test_dataset.py # 对数据集解析、加载等进行单元测试
  │   │   ...
-  ├── tools  # 一些有用的工具
-  │   ├── x2coco.py       # 将其他数据集转换为COCO数据集格式
  ├── transform  # 数据预处理模块
  │   ├── batch_operators.py  # 定义各类基于批量数据的预处理算子
  │   ├── op_helper.py    # 预处理算子的辅助函数

--- a/docs/advanced_tutorials/TRANSFER_LEARNING.md
+++ b/docs/advanced_tutorials/TRANSFER_LEARNING.md
@@ -8,7 +8,7 @@ In transfer learning, if different dataset and the number of classes is used, th
 ### Use custom dataset
-Transfer learning needs custom dataset and annotation in COCO-format and VOC-format is supported now. The script converts the annotation from labelme or cityscape to COCO is provided in ```ppdet/data/tools/x2coco.py```. More details please refer to [READER](READER.md). After data preparation, update the data parameters in configuration file.
+Transfer learning needs custom dataset and annotation in COCO-format and VOC-format is supported now. The script converts the annotation from voc, labelme or cityscape to COCO is provided in ```tools/x2coco.py```. More details please refer to [READER](READER.md). After data preparation, update the data parameters in configuration file.
 1. COCO-format dataset, take [yolov3\_darknet.yml](https://github.com/PaddlePaddle/PaddleDetection/blob/master/configs/yolov3_darknet.yml#L66) for example, modify the COCODataSet in yolov3\_reader:

--- a/docs/advanced_tutorials/TRANSFER_LEARNING_cn.md
+++ b/docs/advanced_tutorials/TRANSFER_LEARNING_cn.md
@@ -7,7 +7,7 @@
 ### 选择数据
-迁移学习需要使用自己的数据集，目前已支持COCO和VOC的数据标注格式，在```ppdet/data/tools/x2coco.py```中给出了labelme和cityscape标注格式转换为COCO格式的脚本，具体使用方式可以参考[自定义数据源](READER.md)。数据准备完成后，在配置文件中配置数据路径，对应修改reader中的路径参数即可。
+迁移学习需要使用自己的数据集，目前已支持COCO和VOC的数据标注格式，在```tools/x2coco.py```中给出了voc、labelme和cityscape标注格式转换为COCO格式的脚本，具体使用方式可以参考[自定义数据源](READER.md)。数据准备完成后，在配置文件中配置数据路径，对应修改reader中的路径参数即可。
 1. COCO数据集需要修改COCODataSet中的参数，以[yolov3\_darknet.yml](https://github.com/PaddlePaddle/PaddleDetection/blob/master/configs/yolov3_darknet.yml#L66)为例，修改yolov3\_reader中的配置：

--- a/docs/tutorials/Custom_DataSet.md
+++ b/docs/tutorials/Custom_DataSet.md
@@ -15,26 +15,42 @@
 ### 方式一：将数据集转换为COCO格式
-在`./tools/`中提供了`x2coco.py`用于将labelme标注的数据集或cityscape数据集转换为COCO数据集:
+在`./tools/`中提供了`x2coco.py`用于将voc格式数据集、labelme标注的数据集或cityscape数据集转换为COCO数据集，例如:
+（1）labelmes数据转换为COCO格式：
 ```bash
-python ./ppdet/data/tools/x2coco.py \
+python tools/x2coco.py \
                --dataset_type labelme \
                --json_input_dir ./labelme_annos/ \
                --image_input_dir ./labelme_imgs/ \
                --output_dir ./cocome/ \
                --train_proportion 0.8 \
                --val_proportion 0.2 \
-                --test_proportion 0.0 \
+                --test_proportion 0.0
+```
+（2）voc数据转换为COCO格式：
+```bash
+python tools/x2coco.py \
+        --dataset_type voc \
+        --voc_anno_dir path/to/VOCdevkit/VOC2007/Annotations/ \
+        --voc_anno_list path/to/VOCdevkit/VOC2007/ImageSets/Main/trainval.txt \
+        --voc_label_list dataset/voc/label_list.txt \
+        --voc_out_name voc_train.json
 ```
 **参数说明：**
- `--dataset_type`：需要转换的数据格式，目前支持：’labelme‘和’cityscape‘
+- `--dataset_type`：需要转换的数据格式，目前支持：’voc‘、’labelme‘和’cityscape‘
 - `--json_input_dir`：使用labelme标注的json文件所在文件夹
 - `--image_input_dir`：图像文件所在文件夹
 - `--output_dir`：转换后的COCO格式数据集存放位置
 - `--train_proportion`：标注数据中用于train的比例
 - `--val_proportion`：标注数据中用于validation的比例
 - `--test_proportion`：标注数据中用于infer的比例
+- `--voc_anno_dir`：VOC数据转换为COCO数据集时的voc数据集标注文件路径
+- `--voc_anno_list`：VOC数据转换为COCO数据集时的标注列表文件，一般是`ImageSets/Main`下trainval.txt和test.txt文件
+- `--voc_label_list`：VOC数据转换为COCO数据集时的类别列表文件，文件中每一行表示一种物体类别
+- `--voc_out_name`：VOC数据转换为COCO数据集时的输出的COCO数据集格式json文件名
 ### 方式二：将数据集转换为VOC格式

--- a/ppdet/data/source/coco.py
+++ b/ppdet/data/source/coco.py
@@ -137,14 +137,14 @@ class COCODataSet(DataSet):
                    y1 = max(0, y)
                    x2 = min(im_w - 1, x1 + max(0, box_w - 1))
                    y2 = min(im_h - 1, y1 + max(0, box_h - 1))
-                    if inst['area'] > 0 and x2 >= x1 and y2 >= y1:
+                    if x2 >= x1 and y2 >= y1:
                        inst['clean_bbox'] = [x1, y1, x2, y2]
                        bboxes.append(inst)
                    else:
                        logger.warn(
                            'Found an invalid bbox in annotations: im_id: {}, '
-                            'area: {} x1: {}, y1: {}, x2: {}, y2: {}.'.format(
+                            'x1: {}, y1: {}, x2: {}, y2: {}.'.format(
-                                img_id, float(inst['area']), x1, y1, x2, y2))
+                                img_id, x1, y1, x2, y2))
                num_bbox = len(bboxes)
                gt_bbox = np.zeros((num_bbox, 4), dtype=np.float32)

--- a/tools/cpp_infer.py
+++ b/tools/cpp_infer.py
--- a/ppdet/data/tools/x2coco.py
+++ b/ppdet/data/tools/x2coco.py
@@ -21,6 +21,9 @@ import os
 import os.path as osp
 import sys
 import shutil
+import xml.etree.ElementTree as ET
+from tqdm import tqdm
+import re
 import numpy as np
 import PIL.ImageDraw
@@ -154,17 +157,19 @@ def deal_json(ds_type, img_path, json_path):
                        categories_list.append(categories(label, labels_list))
                        labels_list.append(label)
                        label_to_num[label] = len(labels_list)
-                    points = shapes['points']
                    p_type = shapes['shape_type']
                    if p_type == 'polygon':
+                        points = shapes['points']
                        annotations_list.append(
                            annotations_polygon(data['imageHeight'], data[
                                'imageWidth'], points, label, image_num,
                                                object_num, label_to_num))
                    if p_type == 'rectangle':
-                        points.append([points[0][0], points[1][1]])
+                        (x1, y1), (x2, y2) = shapes['points']
-                        points.append([points[1][0], points[0][1]])
+                        x1, x2 = sorted([x1, x2])
+                        y1, y2 = sorted([y1, y2])
+                        points = [[x1, y1], [x2, y2], [x1, y2], [x2, y1]]
                        annotations_list.append(
                            annotations_rectangle(points, label, image_num,
                                                  object_num, label_to_num))
@@ -187,6 +192,100 @@ def deal_json(ds_type, img_path, json_path):
    return data_coco
+def voc_get_label_anno(ann_dir_path, ann_ids_path, labels_path):
+    with open(labels_path, 'r') as f:
+        labels_str = f.read().split()
+    labels_ids = list(range(1, len(labels_str) + 1))
+    with open(ann_ids_path, 'r') as f:
+        ann_ids = f.read().split()
+    ann_paths = []
+    for aid in ann_ids:
+        if aid.endswith('xml'):
+            ann_path = os.path.join(ann_dir_path, aid)
+        else:
+            ann_path = os.path.join(ann_dir_path, aid + '.xml')
+        ann_paths.append(ann_path)
+    return dict(zip(labels_str, labels_ids)), ann_paths
+def voc_get_image_info(annotation_root, im_id):
+    filename = annotation_root.findtext('filename')
+    assert filename is not None
+    img_name = os.path.basename(filename)
+    size = annotation_root.find('size')
+    width = int(size.findtext('width'))
+    height = int(size.findtext('height'))
+    image_info = {
+        'file_name': filename,
+        'height': height,
+        'width': width,
+        'id': im_id
+    }
+    return image_info
+def voc_get_coco_annotation(obj, label2id):
+    label = obj.findtext('name')
+    assert label in label2id, "label is not in label2id."
+    category_id = label2id[label]
+    bndbox = obj.find('bndbox')
+    xmin = int(bndbox.findtext('xmin')) - 1
+    ymin = int(bndbox.findtext('ymin')) - 1
+    xmax = int(bndbox.findtext('xmax'))
+    ymax = int(bndbox.findtext('ymax'))
+    assert xmax > xmin and ymax > ymin, "Box size error."
+    o_width = xmax - xmin
+    o_height = ymax - ymin
+    anno = {
+        'area': o_width * o_height,
+        'iscrowd': 0,
+        'bbox': [xmin, ymin, o_width, o_height],
+        'category_id': category_id,
+        'ignore': 0,
+        'segmentation': []  # This script is not for segmentation
+    }
+    return anno
+def voc_xmls_to_cocojson(annotation_paths, label2id, output_dir, output_file):
+    output_json_dict = {
+        "images": [],
+        "type": "instances",
+        "annotations": [],
+        "categories": []
+    }
+    bnd_id = 1  # bounding box start id
+    im_id = 0
+    print('Start converting !')
+    for a_path in tqdm(annotation_paths):
+        # Read annotation xml
+        ann_tree = ET.parse(a_path)
+        ann_root = ann_tree.getroot()
+        img_info = voc_get_image_info(ann_root, im_id)
+        im_id += 1
+        img_id = img_info['id']
+        output_json_dict['images'].append(img_info)
+        for obj in ann_root.findall('object'):
+            ann = voc_get_coco_annotation(obj=obj, label2id=label2id)
+            ann.update({'image_id': img_id, 'id': bnd_id})
+            output_json_dict['annotations'].append(ann)
+            bnd_id = bnd_id + 1
+    for label, label_id in label2id.items():
+        category_info = {'supercategory': 'none', 'id': label_id, 'name': label}
+        output_json_dict['categories'].append(category_info)
+    output_file = os.path.join(output_dir, output_file)
+    with open(output_file, 'w') as f:
+        output_json = json.dumps(output_json_dict)
+        f.write(output_json)
 def main():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)
@@ -194,7 +293,7 @@ def main():
    parser.add_argument('--json_input_dir', help='input annotated directory')
    parser.add_argument('--image_input_dir', help='image directory')
    parser.add_argument(
-        '--output_dir', help='output dataset directory', default='../../../')
+        '--output_dir', help='output dataset directory', default='./')
    parser.add_argument(
        '--train_proportion',
        help='the proportion of train dataset',
@@ -210,12 +309,44 @@ def main():
        help='the proportion of test dataset',
        type=float,
        default=0.0)
+    parser.add_argument(
+        '--voc_anno_dir',
+        help='In Voc format dataset, path to annotation files directory.',
+        type=str,
+        default=None)
+    parser.add_argument(
+        '--voc_anno_list',
+        help='In Voc format dataset, path to annotation files ids list.',
+        type=str,
+        default=None)
+    parser.add_argument(
+        '--voc_label_list',
+        help='In Voc format dataset, path to label list. The content of each line is a category.',
+        type=str,
+        default=None)
+    parser.add_argument(
+        '--voc_out_name',
+        type=str,
+        default='voc.json',
+        help='In Voc format dataset, path to output json file')
    args = parser.parse_args()
    try:
-        assert args.dataset_type in ['labelme', 'cityscape']
+        assert args.dataset_type in ['voc', 'labelme', 'cityscape']
    except AssertionError as e:
-        print('Now only support the cityscape dataset and labelme dataset!!')
+        print(
+            'Now only support the voc, cityscape dataset and labelme dataset!!')
        os._exit(0)
+    if args.dataset_type == 'voc':
+        assert args.voc_anno_dir and args.voc_anno_list and args.voc_label_list
+        label2id, ann_paths = voc_get_label_anno(
+            args.voc_anno_dir, args.voc_anno_list, args.voc_label_list)
+        voc_xmls_to_cocojson(
+            annotation_paths=ann_paths,
+            label2id=label2id,
+            output_dir=args.output_dir,
+            output_file=args.voc_out_name)
+    else:
        try:
            assert os.path.exists(args.json_input_dir)
        except AssertionError as e:
@@ -277,8 +408,9 @@ def main():
        if not os.path.exists(args.output_dir + '/annotations'):
            os.makedirs(args.output_dir + '/annotations')
        if args.train_proportion != 0:
-        train_data_coco = deal_json(
+            train_data_coco = deal_json(args.dataset_type,
-            args.dataset_type, args.output_dir + '/train', args.json_input_dir)
+                                        args.output_dir + '/train',
+                                        args.json_input_dir)
            train_json_path = osp.join(args.output_dir + '/annotations',
                                       'instance_train.json')
            json.dump(
@@ -287,19 +419,27 @@ def main():
                indent=4,
                cls=MyEncoder)
        if args.val_proportion != 0:
-        val_data_coco = deal_json(args.dataset_type, args.output_dir + '/val',
+            val_data_coco = deal_json(args.dataset_type,
+                                      args.output_dir + '/val',
                                      args.json_input_dir)
            val_json_path = osp.join(args.output_dir + '/annotations',
                                     'instance_val.json')
            json.dump(
-            val_data_coco, open(val_json_path, 'w'), indent=4, cls=MyEncoder)
+                val_data_coco,
+                open(val_json_path, 'w'),
+                indent=4,
+                cls=MyEncoder)
        if args.test_proportion != 0:
-        test_data_coco = deal_json(args.dataset_type, args.output_dir + '/test',
+            test_data_coco = deal_json(args.dataset_type,
+                                       args.output_dir + '/test',
                                       args.json_input_dir)
            test_json_path = osp.join(args.output_dir + '/annotations',
                                      'instance_test.json')
            json.dump(
-            test_data_coco, open(test_json_path, 'w'), indent=4, cls=MyEncoder)
+                test_data_coco,
+                open(test_json_path, 'w'),
+                indent=4,
+                cls=MyEncoder)
 if __name__ == '__main__':