Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
weixin_41840029
PaddleOCR
提交
2e6e4934
P
PaddleOCR
项目概览
weixin_41840029
/
PaddleOCR
与 Fork 源项目一致
Fork自
PaddlePaddle / PaddleOCR
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleOCR
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
2e6e4934
编写于
10月 20, 2022
作者:
qq_25193841
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update PDF2Word README
Update PDF2Word README
上级
4615815d
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
25 addition
and
6 deletion
+25
-6
ppstructure/pdf2word/README.md
ppstructure/pdf2word/README.md
+25
-6
未找到文件。
ppstructure/pdf2word/README.md
浏览文件 @
2e6e4934
# PDF2Word
# PDF2Word
PDF2Word是PaddleOCR社区开发者
[
whjdark
](
https://github.com/whjdark
)
基于PP-Structure智能文档分析模型实现的PDF转换Word应用程序,提供可直接安装的exe,方便windows用户
运行
PDF2Word是PaddleOCR社区开发者
[
whjdark
](
https://github.com/whjdark
)
基于PP-StructureV2版面分析与恢复模型实现的PDF转换Word应用程序,提供可直接安装的exe应用程序,方便Windows用户离线、免环境配置
运行
## 1.使用
## 1.使用
### 应用程序
### 应用程序
1.
下载与安装:针对Windows用户,根据
[
软件下载
](
)一节下载软件
后,运行
`启动程序.exe`
。若您下载的是lite版本,安装过程中会在线下载环境依赖、模型等必要资源,安装时间较长,请确保网络畅通。serve版本打包了相关依赖,安装时间较短,可按需下载
。
1.
下载与安装:针对Windows用户,根据
[
软件下载
](
)一节下载软件
并解压后,运行
`启动程序.exe`
。
2.
转换:由于PP-Structure根据中英文数据分别进行适配,在转换相应文件时可
**根据文档语言进行相应选择**
。
> 版本说明:
>
> - mini版体积较小,在安装过程中会自动下载依赖包、模型等必要资源,安装时间较长,请确保网络畅通。
> - full版打包了依赖包与模型文件,故压缩包较大,相对等待时间较短,可按需下载。
### 脚本运行
2.
**打开文件与转换:**
-
`中文转换、英文转换`
:针对
`图片型PDF`
文件的转换方法,即
**当PDF文件中的文字无法复制粘贴时**
,推荐使用本方法通过OCR转换文件,由于PP-Structure根据中英文数据分别进行适配,在转换相应文件时可
**根据文档语言进行相应选择**
。
-
`PDF解析`
: 针对可以复制文字的PDF文件,推荐直接点击
`PDF解析`
,获得更加精准的效果。
3.
打开结果:点击
`显示结果`
,即可打开转换完成后的文件夹
> 注意:
>
> - 初次安装程序根据不同设备需要等待1-2分钟不等
> - 使用Office与WPS打开的Word结果会出现不同,推荐以Office为准
> - 本程序使用 [QPT](https://github.com/QPT-Family/QPT) 进行应用程序打包,感谢 [GT-ZhangAcer](https://github.com/GT-ZhangAcer) 对打包过程的支持
### 脚本启动界面
首次运行需要将切换路径到
`/ppstructure/pdf2word`
,然后运行代码
首次运行需要将切换路径到
`/ppstructure/pdf2word`
,然后运行代码
...
@@ -18,11 +34,14 @@ PDF2Word是PaddleOCR社区开发者[whjdark](https://github.com/whjdark) 基于P
...
@@ -18,11 +34,14 @@ PDF2Word是PaddleOCR社区开发者[whjdark](https://github.com/whjdark) 基于P
python pdf2word.py
python pdf2word.py
```
```
### PaddleOCR whl包
针对Linux、Mac用户,推荐安装
`paddleocr`
whl包直接应用版面恢复功能,详情可查看
[
链接
](
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/quickstart.md
)
## 2.软件下载
## 2.软件下载
如需获取已打包程序,可以扫描下方二维码,关注公众号填写问卷后,加入PaddleOCR官方交流群免费获取20G OCR学习大礼包,内含OCR场景应用集合(包含数码管、液晶屏、车牌、高精度SVTR模型等
7
个垂类模型)、《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料
如需获取已打包程序,可以扫描下方二维码,关注公众号填写问卷后,加入PaddleOCR官方交流群免费获取20G OCR学习大礼包,内含OCR场景应用集合(包含数码管、液晶屏、车牌、高精度SVTR模型等
10
个垂类模型)、《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料
<div
align=
"center"
>
<div
align=
"center"
>
<img
src=
"https://user-images.githubusercontent.com/50011306/186369636-35f2008b-df5a-4784-b1f5-cebebcb2b7a5.jpg"
width =
"150"
height =
"150"
/>
<img
src=
"https://user-images.githubusercontent.com/50011306/186369636-35f2008b-df5a-4784-b1f5-cebebcb2b7a5.jpg"
width =
"150"
height =
"150"
/>
</div>
</div>
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录