{ "cells": [ { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "# 文档分析技术\n", "\n", "本章主要介绍文档分析技术的理论知识,包括背景介绍、算法分类和对应思路。\n", "\n", "通过本章的学习,你可以掌握:\n", "\n", "1. 版面分析的分类和典型思想\n", "2. 表格识别的分类和典型思想\n", "3. 信息提取的分类和典型思想" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "\n", "作为信息承载工具,文档的不同布局代表了各种不同的信息,如清单和身份证。文档分析是一个从文档中阅读、解释和提取信息的自动化过程。文档分析常包含以下几个研究方向:\n", "\n", "1. 版面分析模块: 将每个文档页面划分为不同的内容区域。该模块不仅可用于划定相关区域和不相关区域,还可用于对其识别的内容类型进行分类。\n", "2. 光学字符识别 (OCR) 模块: 定位并识别文档中存在的所有文本。\n", "3. 表格识别模块: 将文档里的表格信息进行识别和转换到excel文件中。\n", "4. 信息提取模块: 借助OCR结果和图像信息来理解和识别文档中表达的特定信息或信息之间的关系。\n", "\n", "由于OCR模块在前面的章节中进行了详细的介绍,接下来将针对上面版面分析、表格识别和信息提取三个模块做单独的介绍。对于每一个模块,会介绍该模块的经典或常用方法以及数据集。" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "## 1. 版面分析\n", "\n", "### 1.1 背景介绍\n", "\n", "版面分析主要用于文档检索,关键信息提取,内容分类等,其任务主要是对文档图像进行内容分类,内容的类别一般可分为纯文本、标题、表格、图片和列表等。但是文档布局、格式的多样性和复杂性,文档图像质量差,大规模的带标注的数据集的缺少等问题使得版面分析仍然是一个很有挑战性的任务。\n", "版面分析任务的可视化如下图所示:\n", "