{ "cells": [ { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "# 1. PP-OCR系统简介与总览\n", "\n", "前两章主要介绍了DBNet文字检测算法以及CRNN文字识别算法。然而对于我们实际场景中的一张图像,想要单独基于文字检测或者识别模型,是无法同时获取文字位置与文字内容的,因此,我们将文字检测算法以及文字识别算法进行串联,构建了PP-OCR文字检测与识别系统。在实际使用过程中,检测出的文字方向可能不是我们期望的方向,最终导致文字识别错误,因此我们在PP-OCR系统中也引入了方向分类器。\n", "\n", "本章主要介绍PP-OCR文字检测与识别系统以及该系统中涉及到的优化策略。通过本节课的学习,您可以获得:\n", "\n", "* PaddleOCR策略调优技巧\n", "* 文本检测、识别、方向分类器模型的优化技巧和优化方法\n", "\n", "PP-OCR系统共经历了2次优化,下面对PP-OCR系统和这2次优化进行简单介绍。\n", "\n", "## 1.1 PP-OCR系统与优化策略简介\n", "\n", "PP-OCR中,对于一张图像,如果希望提取其中的文字信息,需要完成以下几个步骤:\n", "\n", "* 使用文本检测的方法,获取文本区域多边形信息(PP-OCR中文本检测使用的是DBNet,因此获取的是四点信息)。\n", "* 对上述文本多边形区域进行裁剪与透视变换校正,将文本区域转化成矩形框,再使用方向分类器对方向进行校正。\n", "* 基于包含文字区域的矩形框进行文本识别,得到最终识别结果。\n", "\n", "上面便完成了对于一张图像的文本检测与识别过程。\n", "\n", "PP-OCR的系统框图如下所示。\n", "\n", "
\n", " \n", "
\n", "
\n", " \n", "
\n", "
\n", " \n", "
\n", "