model zoo YOLOv3 add paper mAP (#14)

744cb882 · Kaipeng Deng · GitHub · a69ca0ec · 744cb882 · 744cb882
显示空白变更内容
内联并排

Showing with 42 addition and 32 deletion

docs/MODEL_ZOO.md docs/MODEL_ZOO.md +22 -17

docs/MODEL_ZOO_cn.md docs/MODEL_ZOO_cn.md +20 -15

未找到文件。
--- a/docs/MODEL_ZOO.md
+++ b/docs/MODEL_ZOO.md
@@ -95,10 +95,13 @@ The backbone models pretrained on ImageNet are available. All backbone models ar
 - Group Normalization reference from [Group Normalization](https://arxiv.org/abs/1803.08494).
 - Detailed configuration file in [configs/gn](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection/configs/gn)
-### Yolo v3
+### YOLO v3
 | Backbone     | Pretrain dataset | Size | deformable Conv | Image/gpu | Lr schd | Inf time (fps) | Box AP |  Download |
 | :----------- | :--------: | :-----: | :-----: |:------------: |:----: | :-------: | :----: | :-------: |
+| DarkNet53 (paper) | ImageNet | 608  |  False    |    8    |   270e  |      -        |  33.0  | - |
+| DarkNet53 (paper) | ImageNet | 416  |  False    |    8    |   270e  |      -        |  31.0  | - |
+| DarkNet53 (paper) | ImageNet | 320  |  False    |    8    |   270e  |      -        |  28.2  | - |
 | DarkNet53         | ImageNet | 608  |  False    |    8    |   270e  |    45.571     |  38.9  | [model](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_darknet.tar) |
 | DarkNet53         | ImageNet | 416  |  False    |    8    |   270e  |      -        |  37.5  | [model](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_darknet.tar) |
 | DarkNet53         | ImageNet | 320  |  False    |    8    |   270e  |      -        |  34.8  | [model](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_darknet.tar) |
@@ -111,8 +114,7 @@ The backbone models pretrained on ImageNet are available. All backbone models ar
 | ResNet50_vd       | ImageNet | 608  |  True     |    8    |   270e  |      -        |  39.1  | [model](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r50vd_dcn.tar) |
 | ResNet50_vd       | Object365 | 608  |  True    |    8    |   270e  |      -        |  41.4  | [model](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r50vd_dcn_obj365_pretrained_coco.tar) |
+### YOLO v3 on Pascal VOC
-### Yolo v3 on Pascal VOC
 | Backbone     | Size | Image/gpu | Lr schd | Inf time (fps) | Box AP |                           Download                           |
 | :----------- | :--: | :-------: | :-----: | :------------: | :----: | :----------------------------------------------------------: |
@@ -126,8 +128,11 @@ The backbone models pretrained on ImageNet are available. All backbone models ar
 | ResNet34     | 416  |     8     |  270e   |       -        |  81.9  | [model](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r34_voc.tar) |
 | ResNet34     | 320  |     8     |  270e   |       -        |  80.1  | [model](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r34_voc.tar) |
-**Notes:** Yolo v3 is trained in 8 GPU with total batch size as 64 and trained 270 epoches. Yolo v3 training data augmentations: mixup,
+#### Notes:
-randomly color distortion, randomly cropping, randomly expansion, randomly interpolation method, randomly flippling. Yolo v3 used randomly
+- YOLOv3-DarkNet53 performance in paper [YOLOv3](https://arxiv.org/abs/1804.02767) is also provided above, our implements
+improved performance mainly by using L1 loss in bounding box width and height regression, image mixup and label smooth.
+- YOLO v3 is trained in 8 GPU with total batch size as 64 and trained 270 epoches. YOLO v3 training data augmentations: mixup,
+randomly color distortion, randomly cropping, randomly expansion, randomly interpolation method, randomly flippling. YOLO v3 used randomly
 reshaped minibatch in training, inferences can be performed on different image sizes with the same model weights, and we provided evaluation
 results of image size 608/416/320 above. Deformable conv is added on stage 5 of backbone.

--- a/docs/MODEL_ZOO_cn.md
+++ b/docs/MODEL_ZOO_cn.md
@@ -92,10 +92,13 @@ Paddle提供基于ImageNet的骨架网络预训练模型。所有预训练模型
 - Group Normalization参考论文[Group Normalization](https://arxiv.org/abs/1803.08494).
 - 详细的配置文件在[configs/gn](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection/configs/gn)
-### Yolo v3
+### YOLO v3
 | 骨架网络     | 预训练数据集 | 输入尺寸 | 加入deformable卷积 | 每张GPU图片个数 | 学习率策略 |推理时间(fps)| Box AP | 下载 |
 | :----------- | :--: | :-----: | :-----: |:------------: |:----: | :-------: | :----: | :-------: |
+| DarkNet53 (paper)   | ImageNet | 608  |  否    |    8    |   270e  |      -        |  33.0  | - |
+| DarkNet53 (paper)   | ImageNet | 416  |  否    |    8    |   270e  |      -        |  31.0  | - |
+| DarkNet53 (paper)   | ImageNet | 320  |  否    |    8    |   270e  |      -        |  28.2  | - |
 | DarkNet53           | ImageNet | 608  |  否    |    8    |   270e  |    45.571     |  38.9  | [下载链接](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_darknet.tar) |
 | DarkNet53           | ImageNet | 416  |  否    |    8    |   270e  |      -        |  37.5  | [下载链接](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_darknet.tar) |
 | DarkNet53           | ImageNet | 320  |  否    |    8    |   270e  |      -        |  34.8  | [下载链接](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_darknet.tar) |
@@ -108,7 +111,7 @@ Paddle提供基于ImageNet的骨架网络预训练模型。所有预训练模型
 | ResNet50_vd         | ImageNet | 608  |  是    |    8    |   270e  |      -        |  39.1  | [下载链接](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r50vd_dcn.tar) |
 | ResNet50_vd         | Object365 | 608  |  是    |    8    |   270e  |      -        |  41.4  | [下载链接](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r50vd_dcn_obj365_pretrained_coco.tar) |
-### Yolo v3 基于Pasacl VOC数据集
+### YOLO v3 基于Pasacl VOC数据集
 | 骨架网络     | 输入尺寸 | 每张GPU图片个数 | 学习率策略 |推理时间(fps)| Box AP | 下载 |
 | :----------- | :--: | :-----: | :-----: |:------------: |:----: | :-------: |
@@ -122,7 +125,9 @@ Paddle提供基于ImageNet的骨架网络预训练模型。所有预训练模型
 | ResNet34     | 416  |    8    |   270e  |      -        |  81.9  | [下载链接](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r34_voc.tar) |
 | ResNet34     | 320  |    8    |   270e  |      -        |  80.1  | [下载链接](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r34_voc.tar) |
-**注意事项:** Yolo v3在8卡，总batch size为64下训练270轮。数据增强包括：mixup, 随机颜色失真，随机剪裁，随机扩张，随机插值法，随机翻转。Yolo v3在训练阶段对minibatch采用随机reshape，可以采用相同的模型测试不同尺寸图片，我们分别提供了尺寸为608/416/320大小的测试结果。deformable卷积作用在骨架网络5阶段。
+#### 注意事项:
+- 上表中也提供了原论文[YOLOv3](https://arxiv.org/abs/1804.02767)中YOLOv3-DarkNet53的精度，我们的实现版本主要从在bounding box的宽度和高度回归上使用了L1损失，图像mixup和label smooth等方法优化了其精度。
+- YOLO v3在8卡，总batch size为64下训练270轮。数据增强包括：mixup, 随机颜色失真，随机剪裁，随机扩张，随机插值法，随机翻转。YOLO v3在训练阶段对minibatch采用随机reshape，可以采用相同的模型测试不同尺寸图片，我们分别提供了尺寸为608/416/320大小的测试结果。deformable卷积作用在骨架网络5阶段。
 ### RetinaNet