vertical_and_multilingual_datasets.md 3.7 KB
Newer Older
littletomatodonkey's avatar
littletomatodonkey 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
# 垂类多语言OCR数据集
这里整理了常用垂类和多语言OCR数据集,持续更新中,欢迎各位小伙伴贡献数据集~
- [中国城市车牌数据集](#中国城市车牌数据集)
- [银行信用卡数据集](#银行信用卡数据集)
- [验证码数据集-Captcha](#验证码数据集-Captcha)
- [多语言数据集](#多语言数据集)


<a name="中国城市车牌数据集"></a>
## 中国城市车牌数据集

- **数据来源**[https://github.com/detectRecog/CCPD](https://github.com/detectRecog/CCPD)

- **数据简介**: 包含超过25万张中国城市车牌图片及车牌检测、识别信息的标注。包含以下几种不同场景中的车牌图片信息。
    * CCPD-Base: 通用车牌图片
    * CCPD-DB: 车牌区域亮度较亮、较暗或者不均匀
    * CCPD-FN: 车牌离摄像头拍摄位置相对更远或者更近
littletomatodonkey's avatar
littletomatodonkey 已提交
18 19
    * CCPD-Rotate: 车牌包含旋转(水平20\~50度,竖直-10\~10度)
    * CCPD-Tilt: 车牌包含旋转(水平15\~45度,竖直15\~45度)
littletomatodonkey's avatar
littletomatodonkey 已提交
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
    * CCPD-Blur: 车牌包含由于摄像机镜头抖动导致的模糊情况
    * CCPD-Weather: 车牌在雨天、雪天或者雾天拍摄得到
    * CCPD-Challenge: 至今在车牌检测识别任务中最有挑战性的一些图片
    * CCPD-NP: 没有安装车牌的新车图片。

    ![](../datasets/ccpd_demo.png)


- **下载地址**
    * 百度云下载地址(提取码是hm0U): [https://pan.baidu.com/s/1i5AOjAbtkwb17Zy-NQGqkw](https://pan.baidu.com/s/1i5AOjAbtkwb17Zy-NQGqkw)
    * Google drive下载地址:[https://drive.google.com/file/d/1rdEsCUcIUaYOVRkx5IMTRNA7PcGMmSgc/view](https://drive.google.com/file/d/1rdEsCUcIUaYOVRkx5IMTRNA7PcGMmSgc/view)


<a name="银行信用卡数据集"></a>
## 银行信用卡数据集

- **数据来源**: [https://www.kesci.com/home/dataset/5954cf1372ead054a5e25870](https://www.kesci.com/home/dataset/5954cf1372ead054a5e25870)

- **数据简介**: 训练数据共提供了三类数据
    * 1.招行样卡数据: 包括卡面图片数据及标注数据,总共618张图片
    * 2.单字符数据: 包括图片及标注数据,总共37张图片。
    * 3.仅包含其他银行卡面,不具有更细致的信息,总共50张图片。

littletomatodonkey's avatar
littletomatodonkey 已提交
43
    * demo图片展示如下,标注信息存储在excel表格中,下面的demo图片标注为
littletomatodonkey's avatar
littletomatodonkey 已提交
44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79
        * 前8位卡号:62257583
        * 卡片种类:本行卡
        * 有效期结束:07/41
        * 卡用户拼音:MICHAEL

    ![](../datasets/cmb_demo.jpg)

- **下载地址**: [https://cdn.kesci.com/cmb2017-2.zip](https://cdn.kesci.com/cmb2017-2.zip)



<a name="验证码数据集-Captcha"></a>
## 验证码数据集-Captcha

- **数据来源**: [https://github.com/lepture/captcha](https://github.com/lepture/captcha)

- **数据简介**: 这是一个数据合成的工具包,可以根据输入的文本,输出验证码图片,使用该工具包生成几张demo图片如下。

    ![](../datasets/captcha_demo.png)

- **下载地址**: 该数据集是生成得到,无下载地址。



<a name="多语言数据集"></a>
## 多语言数据集(Multi-lingual scene text detection and recognition)

- **数据来源**: [https://rrc.cvc.uab.es/?ch=15&com=downloads](https://rrc.cvc.uab.es/?ch=15&com=downloads)

- **数据简介**: 多语言检测数据集MLT同时包含了语种识别和检测任务。
    * 在检测任务中,训练集包含10000张图片,共有10种语言,每种语言包含1000张训练图片。测试集包含10000张图片。
    * 在识别任务中,训练集包含111998个样本。


- **下载地址**: 训练集较大,分2部分下载,需要在网站上注册之后才能下载:
[https://rrc.cvc.uab.es/?ch=15&com=downloads](https://rrc.cvc.uab.es/?ch=15&com=downloads)