Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
qq_33866770
对上传的 PDF 文件进行文字提取
提交
0900614a
对
对上传的 PDF 文件进行文字提取
项目概览
qq_33866770
/
对上传的 PDF 文件进行文字提取
与 Fork 源项目一致
Fork自
inscode / Streamlit
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
对
对上传的 PDF 文件进行文字提取
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
0900614a
编写于
3月 13, 2024
作者:
Q
qq_33866770
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Wed Mar 13 18:15:00 CST 2024 inscode
上级
0520122c
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
28 addition
and
16 deletion
+28
-16
main.py
main.py
+28
-16
未找到文件。
main.py
浏览文件 @
0900614a
import
streamlit
as
st
from
streamlit_option_menu
import
option_menu
import
inscode
from
PyPDF2
import
PdfFileReader
# 设置Streamlit应用程序的标题
st
.
set_page_config
(
page_title
=
"app name"
,
layout
=
"wide"
)
st
.
title
(
"PDF文件文字提取"
)
menu1
=
"菜单1"
menu2
=
"菜单2"
uploaded_file
=
st
.
file_uploader
(
"请上传PDF文件"
,
type
=
[
"pdf"
])
with
st
.
sidebar
:
menu
=
option_menu
(
"菜单"
,
[
menu1
,
menu2
],
icons
=
[
'house'
,
"list-task"
],
menu_icon
=
"cast"
,
default_index
=
0
)
if
uploaded_file
is
not
None
:
# 将上传的文件保存到本地
with
open
(
"temp.pdf"
,
"wb"
)
as
f
:
f
.
write
(
uploaded_file
.
getbuffer
()
)
def
main
():
# 获取PDF文件中的页数
pdf_file
=
PdfFileReader
(
open
(
"temp.pdf"
,
"rb"
))
num_of_pages
=
pdf_file
.
getNumPages
()
if
menu
==
menu1
:
st
.
subheader
(
f
"
{
menu1
}
"
)
# 逐页转换PDF文件为文本格式
text
=
""
for
page
in
range
(
num_of_pages
):
text
+=
pdf_file
.
getPage
(
page
).
extractText
()
if
menu
==
menu2
:
st
.
subheader
(
f
"
{
menu2
}
"
)
# 使用OCR进行图像识别
result
=
inscode
.
ocr
(
"pdf_file"
,
"temp.pdf"
)
st
.
write
(
"PDF文件中的文本信息为:"
)
st
.
write
(
text
)
st
.
write
(
"OCR识别后的文本信息为:"
)
st
.
write
(
result
)
if
__name__
==
'__main__'
:
main
()
# 保存提取后的文本信息到本地文件
with
open
(
"text.txt"
,
"w"
,
encoding
=
"utf-8"
)
as
f
:
f
.
write
(
text
)
st
.
write
(
"已将提取后的文本信息保存到 text.txt 文件中。"
)
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录