From 2e6e49341315080772a03656450a6a8ebc6b72c2 Mon Sep 17 00:00:00 2001 From: Leif <4603009@qq.com> Date: Thu, 20 Oct 2022 13:33:26 +0800 Subject: [PATCH] Update PDF2Word README Update PDF2Word README --- ppstructure/pdf2word/README.md | 31 +++++++++++++++++++++++++------ 1 file changed, 25 insertions(+), 6 deletions(-) diff --git a/ppstructure/pdf2word/README.md b/ppstructure/pdf2word/README.md index 6edd6a2f..4ed83a73 100644 --- a/ppstructure/pdf2word/README.md +++ b/ppstructure/pdf2word/README.md @@ -1,16 +1,32 @@ # PDF2Word -PDF2Word是PaddleOCR社区开发者[whjdark](https://github.com/whjdark) 基于PP-Structure智能文档分析模型实现的PDF转换Word应用程序,提供可直接安装的exe,方便windows用户运行 +PDF2Word是PaddleOCR社区开发者 [whjdark](https://github.com/whjdark) 基于PP-StructureV2版面分析与恢复模型实现的PDF转换Word应用程序,提供可直接安装的exe应用程序,方便Windows用户离线、免环境配置运行 ## 1.使用 ### 应用程序 -1. 下载与安装:针对Windows用户,根据[软件下载]()一节下载软件后,运行 `启动程序.exe` 。若您下载的是lite版本,安装过程中会在线下载环境依赖、模型等必要资源,安装时间较长,请确保网络畅通。serve版本打包了相关依赖,安装时间较短,可按需下载。 +1. 下载与安装:针对Windows用户,根据[软件下载]()一节下载软件并解压后,运行 `启动程序.exe` 。 -2. 转换:由于PP-Structure根据中英文数据分别进行适配,在转换相应文件时可**根据文档语言进行相应选择**。 + > 版本说明: + > + > - mini版体积较小,在安装过程中会自动下载依赖包、模型等必要资源,安装时间较长,请确保网络畅通。 + > - full版打包了依赖包与模型文件,故压缩包较大,相对等待时间较短,可按需下载。 -### 脚本运行 +2. **打开文件与转换:** + + - `中文转换、英文转换` :针对 `图片型PDF` 文件的转换方法,即**当PDF文件中的文字无法复制粘贴时**,推荐使用本方法通过OCR转换文件,由于PP-Structure根据中英文数据分别进行适配,在转换相应文件时可**根据文档语言进行相应选择**。 + - `PDF解析` : 针对可以复制文字的PDF文件,推荐直接点击 `PDF解析`,获得更加精准的效果。 + +3. 打开结果:点击`显示结果`,即可打开转换完成后的文件夹 + +> 注意: +> +> - 初次安装程序根据不同设备需要等待1-2分钟不等 +> - 使用Office与WPS打开的Word结果会出现不同,推荐以Office为准 +> - 本程序使用 [QPT](https://github.com/QPT-Family/QPT) 进行应用程序打包,感谢 [GT-ZhangAcer](https://github.com/GT-ZhangAcer) 对打包过程的支持 + +### 脚本启动界面 首次运行需要将切换路径到 `/ppstructure/pdf2word` ,然后运行代码 @@ -18,11 +34,14 @@ PDF2Word是PaddleOCR社区开发者[whjdark](https://github.com/whjdark) 基于P python pdf2word.py ``` +### PaddleOCR whl包 + +针对Linux、Mac用户,推荐安装 `paddleocr` whl包直接应用版面恢复功能,详情可查看[链接](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/quickstart.md) + ## 2.软件下载 -如需获取已打包程序,可以扫描下方二维码,关注公众号填写问卷后,加入PaddleOCR官方交流群免费获取20G OCR学习大礼包,内含OCR场景应用集合(包含数码管、液晶屏、车牌、高精度SVTR模型等7个垂类模型)、《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料 +如需获取已打包程序,可以扫描下方二维码,关注公众号填写问卷后,加入PaddleOCR官方交流群免费获取20G OCR学习大礼包,内含OCR场景应用集合(包含数码管、液晶屏、车牌、高精度SVTR模型等10个垂类模型)、《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料