diff --git a/README_cn.md b/README_cn.md index 3ca13bacc465506f2ede4f2bb4586e7bce1ae5f6..a4d5f8675652bd751410da9eab30b868cc884e4a 100644 --- a/README_cn.md +++ b/README_cn.md @@ -2,7 +2,7 @@ # PaddleDetection -PaddleDetection的目的是为工业界和学术界提供大量易使用的目标检测模型。PaddleDetection不仅性能完善,易于部署,同时能够灵活的满足算法研发需求。 +PaddleDetection的目的是为工业界和学术界提供丰富、易用的目标检测模型。不仅性能优越、易于部署,而且能够灵活的满足算法研究的需求。
@@ -15,15 +15,15 @@ PaddleDetection的目的是为工业界和学术界提供大量易使用的目 - 易部署: - PaddleDetection的模型中使用的主要算子均通过C++和CUDA实现,配合PaddlePaddle的高性能预测引擎,使得在服务器环境下易于部署。 + PaddleDetection的模型中使用的核心算子均通过C++或CUDA实现,同时基于PaddlePaddle的高性能推理引擎可以方便地部署在多种硬件平台上。 - 高灵活度: - PaddleDetection各个组件均为功能单元。例如,模型结构,数据预处理流程,用户能够通过修改配置文件轻松实现可定制化。 + PaddleDetection通过模块化设计来解耦各个组件,基于配置文件可以轻松地搭建各种检测模型。 - 高性能: - 在PaddlePaddle底层框架的帮助下,实现了更快的模型训练及更少的显存占用量。值得注意的是,Yolo v3的训练速度远快于其他框架。另外,Mask-RCNN(ResNet50)可以在Tesla V100 16GB环境下以每个GPU4张图片输入实现多卡训练。 + 基于PaddlePaddle框架的高性能内核,在模型训练速度、显存占用上有一定的优势。例如,YOLOv3的训练速度快于其他框架,在Tesla V100 16GB环境下,Mask-RCNN(ResNet50)可以单卡Batch Size可以达到4 (甚至到5)。 支持的模型结构: @@ -33,75 +33,88 @@ PaddleDetection的目的是为工业界和学术界提供大量易使用的目 | Faster R-CNN + FPN | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ | | Mask R-CNN | ✓ | ✓ | x | ✓ | ✗ | ✗ | ✗ | | Mask R-CNN + FPN | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ | -| Cascade R-CNN | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | -| RetinaNet | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | -| Yolov3 | ✓ | ✗ | ✗ | ✗ | ✓ | ✓ | ✗ | +| Cascade Faster-CNN | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | +| Cascade Mask-CNN | ✓ | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ | +| RetinaNet | ✓ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ | +| YOLOv3 | ✓ | ✗ | ✗ | ✗ | ✓ | ✓ | ✗ | | SSD | ✗ | ✗ | ✗ | ✗ | ✓ | ✗ | ✓ | [1] [ResNet-vd](https://arxiv.org/pdf/1812.01187) 模型提供了较大的精度提高和较少的性能损失。 扩展特性: -- [x] **Synchronized Batch Norm**: 目前在Yolo v3中使用。 -- [x] **Group Norm**: 预训练模型待发布。 -- [x] **Modulated Deformable Convolution**: 预训练模型待发布。 -- [x] **Deformable PSRoI Pooling**: 预训练模型待发布。 +- [x] **Synchronized Batch Norm**: 目前在YOLOv3中使用。 +- [x] **Group Norm** +- [x] **Modulated Deformable Convolution** +- [x] **Deformable PSRoI Pooling** **注意:** Synchronized batch normalization 只能在多GPU环境下使用,不能在CPU环境或者单GPU环境下使用。 -## 模型库 - -基于PaddlePaddle训练的目标检测模型可参考[PaddleDetection模型库](docs/MODEL_ZOO_cn.md). +## 使用教程 -## 安装 +- [安装说明](docs/INSTALL_cn.md) +- [快速开始](docs/QUICK_STARTED_cn.md) +- [训练、评估及参数说明](docs/GETTING_STARTED_cn.md) +- [数据预处理及自定义数据集](docs/DATA_cn.md) +- [配置模块设计和介绍](docs/CONFIG_cn.md) +- [详细的配置信息和参数说明示例](docs/config_example/) +- [IPython Notebook demo](demo/mask_rcnn_demo.ipynb) +- [迁移学习教程](docs/TRANSFER_LEARNING_cn.md) -请参考[安装说明文档](docs/INSTALL_cn.md). +## 模型库 +- [模型库](docs/MODEL_ZOO_cn.md) +- [人脸检测模型](configs/face_detection/README_cn.md) +- [行人检测和车辆检测预训练模型](contrib/README_cn.md) -## 开始 -## 快速入门 +## 模型压缩 +- [量化训练压缩示例](slim/quantization) +- [剪枝压缩示例](slim/prune) -PaddleDetection提供了快速开始的demo利于用户能够快速上手,示例请参考[QUICK_STARTED_cn.md](docs/QUICK_STARTED_cn.md) +## 推理部署 -更多训练及评估流程,请参考[GETTING_STARTED_cn.md](docs/GETTING_STARTED_cn.md). +- [C++推理部署](inference/README.md) -详细的配置信息和参数说明,请参考[示例配置文件](docs/config_example/). +## Benchmark -同时推荐用户参考[IPython Notebook demo](demo/mask_rcnn_demo.ipynb) +- [推理Benchmark](docs/BENCHMARK_INFER_cn.md) -其他更多信息可参考以下文档内容: -- [配置流程介绍](docs/CONFIG_cn.md) -- [自定义数据集和预处理流程介绍](docs/DATA_cn.md) +## 版本更新 -## 未来规划 +### 10/2019 -目前PaddleDetection处在持续更新的状态,接下来将会推出一系列的更新,包括如下特性: +- 增加人脸检测模型BlazeFace、Faceboxes。 +- 丰富基于COCO的模型,精度高达51.9%。 +- 增加Objects365 2019 Challenge上夺冠的最佳单模型之一CACascade-RCNN。 +- 增加行人检测和车辆检测预训练模型。 +- 支持FP16训练。 +- 增加跨平台的C++推理部署方案。 +- 增加模型压缩示例。 -- [ ] 混合精度训练 -- [ ] 分布式训练 -- [ ] Int8模式预测 -- [ ] 用户自定义算子 -- [ ] 进一步丰富模型库 +### 2/9/2019 +- 增加GroupNorm模型。 +- 增加CascadeRCNN+Mask模型。 -## 版本更新 +#### 5/8/2019 +- 增加Modulated Deformable Convolution系列模型。 #### 7/22/2019 - 增加检测库中文文档 - 修复R-CNN系列模型训练同时进行评估的问题 - 新增ResNext101-vd + Mask R-CNN + FPN模型 -- 新增基于VOC数据集的Yolo v3模型 +- 新增基于VOC数据集的YOLOv3模型 #### 7/3/2019 - 首次发布PaddleDetection检测库和检测模型库 - 模型包括:Faster R-CNN, Mask R-CNN, Faster R-CNN+FPN, Mask - R-CNN+FPN, Cascade-Faster-RCNN+FPN, RetinaNet, Yolo v3, 和SSD. + R-CNN+FPN, Cascade-Faster-RCNN+FPN, RetinaNet, YOLOv3, 和SSD. ## 如何贡献代码 diff --git a/docs/MODEL_ZOO.md b/docs/MODEL_ZOO.md index 9f0f4dc140a70fe00043afd80800ea59678d149d..c63050b0cead2881a2768be2ef32a67916c88257 100644 --- a/docs/MODEL_ZOO.md +++ b/docs/MODEL_ZOO.md @@ -156,3 +156,8 @@ results of image size 608/416/320 above. **NOTE**: MobileNet-SSD is trained in 2 GPU with totoal batch size as 64 and trained 120 epoches. VGG-SSD is trained in 4 GPU with total batch size as 32 and trained 240 epoches. SSD training data augmentations: randomly color distortion, randomly cropping, randomly expansion, randomly flipping. + + +## Face Detection + +Please refer [face detection models](../configs/face_detection) for details. diff --git a/docs/MODEL_ZOO_cn.md b/docs/MODEL_ZOO_cn.md index f6792417f76e13642644803e65eb004c8dae79bf..918a9cb249d105d9ed7cd0411ede8c5e8ce0c3d5 100644 --- a/docs/MODEL_ZOO_cn.md +++ b/docs/MODEL_ZOO_cn.md @@ -150,3 +150,7 @@ Paddle提供基于ImageNet的骨架网络预训练模型。所有预训练模型 | VGG16 | 512 | 8 | 240e | 65.975 | 80.2 | [下载链接](https://paddlemodels.bj.bcebos.com/object_detection/ssd_vgg16_512_voc.tar) | **注意事项:** MobileNet-SSD在2卡,总batch size为64下训练120周期。VGG-SSD在总batch size为32下训练240周期。数据增强包括:随机颜色失真,随机剪裁,随机扩张,随机翻转。 + +## 人脸检测 + +详细请参考[人脸检测模型](../configs/face_detection).