Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
DeepSpeech
提交
cc051471
D
DeepSpeech
项目概览
PaddlePaddle
/
DeepSpeech
大约 1 年 前同步成功
通知
206
Star
8425
Fork
1598
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
245
列表
看板
标记
里程碑
合并请求
3
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DeepSpeech
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
245
Issue
245
列表
看板
标记
里程碑
合并请求
3
合并请求
3
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
cc051471
编写于
10月 20, 2022
作者:
W
WongLaw
浏览文件
操作
浏览文件
下载
差异文件
Merge branch 'develop' of
https://github.com/PaddlePaddle/PaddleSpeech
into rhy
yes
上级
5f4718fe
2a60c3d8
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
10 addition
and
5 deletion
+10
-5
paddlespeech/text/exps/ernie_linear/punc_restore.py
paddlespeech/text/exps/ernie_linear/punc_restore.py
+10
-5
未找到文件。
paddlespeech/text/exps/ernie_linear/punc_restore.py
浏览文件 @
cc051471
...
...
@@ -25,8 +25,6 @@ DefinedClassifier = {
'ErnieLinear'
:
ErnieLinear
,
}
tokenizer
=
ErnieTokenizer
.
from_pretrained
(
'ernie-1.0'
)
def
_clean_text
(
text
,
punc_list
):
text
=
text
.
lower
()
...
...
@@ -35,7 +33,7 @@ def _clean_text(text, punc_list):
return
text
def
preprocess
(
text
,
punc_list
):
def
preprocess
(
text
,
punc_list
,
tokenizer
):
clean_text
=
_clean_text
(
text
,
punc_list
)
assert
len
(
clean_text
)
>
0
,
f
'Invalid input string:
{
text
}
'
tokenized_input
=
tokenizer
(
...
...
@@ -51,7 +49,8 @@ def test(args):
with
open
(
args
.
config
)
as
f
:
config
=
CfgNode
(
yaml
.
safe_load
(
f
))
print
(
"========Args========"
)
print
(
yaml
.
safe_dump
(
vars
(
args
)))
print
(
yaml
.
safe_dump
(
vars
(
args
),
allow_unicode
=
True
))
# print(args)
print
(
"========Config========"
)
print
(
config
)
...
...
@@ -61,10 +60,16 @@ def test(args):
punc_list
.
append
(
line
.
strip
())
model
=
DefinedClassifier
[
config
[
"model_type"
]](
**
config
[
"model"
])
# print(model)
pretrained_token
=
config
[
'data_params'
][
'pretrained_token'
]
tokenizer
=
ErnieTokenizer
.
from_pretrained
(
pretrained_token
)
# tokenizer = ErnieTokenizer.from_pretrained('ernie-1.0')
state_dict
=
paddle
.
load
(
args
.
checkpoint
)
model
.
set_state_dict
(
state_dict
[
"main_params"
])
model
.
eval
()
_inputs
=
preprocess
(
args
.
text
,
punc_list
)
_inputs
=
preprocess
(
args
.
text
,
punc_list
,
tokenizer
)
seq_len
=
_inputs
[
'seq_len'
]
input_ids
=
paddle
.
to_tensor
(
_inputs
[
'input_ids'
]).
unsqueeze
(
0
)
seg_ids
=
paddle
.
to_tensor
(
_inputs
[
'seg_ids'
]).
unsqueeze
(
0
)
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录