Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
DeepSpeech
提交
156a8402
D
DeepSpeech
项目概览
PaddlePaddle
/
DeepSpeech
大约 1 年 前同步成功
通知
207
Star
8425
Fork
1598
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
245
列表
看板
标记
里程碑
合并请求
3
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DeepSpeech
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
245
Issue
245
列表
看板
标记
里程碑
合并请求
3
合并请求
3
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
未验证
提交
156a8402
编写于
9月 24, 2021
作者:
H
Hui Zhang
提交者:
GitHub
9月 24, 2021
浏览文件
操作
浏览文件
下载
差异文件
Merge pull request #856 from Jackwaterveg/fix_bug
Fix bugs of space id in score.cpp and unuse detokenize
上级
55225852
08281eca
变更
3
显示空白变更内容
内联
并排
Showing
3 changed file
with
21 addition
and
3 deletion
+21
-3
deepspeech/decoders/swig/scorer.cpp
deepspeech/decoders/swig/scorer.cpp
+2
-1
deepspeech/exps/deepspeech2/model.py
deepspeech/exps/deepspeech2/model.py
+15
-0
deepspeech/frontend/featurizer/text_featurizer.py
deepspeech/frontend/featurizer/text_featurizer.py
+4
-2
未找到文件。
deepspeech/decoders/swig/scorer.cpp
浏览文件 @
156a8402
...
...
@@ -26,6 +26,7 @@
#include "decoder_utils.h"
using
namespace
lm
::
ngram
;
const
std
::
string
kSPACE
=
"<space>"
;
Scorer
::
Scorer
(
double
alpha
,
double
beta
,
...
...
@@ -165,7 +166,7 @@ void Scorer::set_char_map(const std::vector<std::string>& char_list) {
// Set the char map for the FST for spelling correction
for
(
size_t
i
=
0
;
i
<
char_list_
.
size
();
i
++
)
{
if
(
char_list_
[
i
]
==
" "
)
{
if
(
char_list_
[
i
]
==
kSPACE
)
{
SPACE_ID_
=
i
;
}
// The initial state of FST is state 0, hence the index of chars in
...
...
deepspeech/exps/deepspeech2/model.py
浏览文件 @
156a8402
...
...
@@ -27,6 +27,7 @@ from paddle import inference
from
paddle.io
import
DataLoader
from
yacs.config
import
CfgNode
from
deepspeech.frontend.featurizer.text_featurizer
import
TextFeaturizer
from
deepspeech.io.collator
import
SpeechCollator
from
deepspeech.io.dataset
import
ManifestDataset
from
deepspeech.io.sampler
import
SortagradBatchSampler
...
...
@@ -271,6 +272,8 @@ class DeepSpeech2Tester(DeepSpeech2Trainer):
def
__init__
(
self
,
config
,
args
):
super
().
__init__
(
config
,
args
)
self
.
_text_featurizer
=
TextFeaturizer
(
unit_type
=
config
.
collator
.
unit_type
,
vocab_filepath
=
None
)
def
ordid2token
(
self
,
texts
,
texts_len
):
""" ord() id to chr() chr """
...
...
@@ -299,6 +302,7 @@ class DeepSpeech2Tester(DeepSpeech2Trainer):
result_transcripts
=
self
.
compute_result_transcripts
(
audio
,
audio_len
,
vocab_list
,
cfg
)
for
utt
,
target
,
result
in
zip
(
utts
,
target_transcripts
,
result_transcripts
):
errors
,
len_ref
=
errors_func
(
target
,
result
)
...
...
@@ -335,6 +339,12 @@ class DeepSpeech2Tester(DeepSpeech2Trainer):
cutoff_prob
=
cfg
.
cutoff_prob
,
cutoff_top_n
=
cfg
.
cutoff_top_n
,
num_processes
=
cfg
.
num_proc_bsearch
)
#replace the <space> with ' '
result_transcripts
=
[
self
.
_text_featurizer
.
detokenize
(
sentence
)
for
sentence
in
result_transcripts
]
self
.
autolog
.
times
.
stamp
()
self
.
autolog
.
times
.
stamp
()
self
.
autolog
.
times
.
end
()
...
...
@@ -455,6 +465,11 @@ class DeepSpeech2ExportTester(DeepSpeech2Tester):
output_probs
,
output_lens
,
vocab_list
,
cfg
.
decoding_method
,
cfg
.
lang_model_path
,
cfg
.
alpha
,
cfg
.
beta
,
cfg
.
beam_size
,
cfg
.
cutoff_prob
,
cfg
.
cutoff_top_n
,
cfg
.
num_proc_bsearch
)
#replace the <space> with ' '
result_transcripts
=
[
self
.
_text_featurizer
.
detokenize
(
sentence
)
for
sentence
in
result_transcripts
]
return
result_transcripts
...
...
deepspeech/frontend/featurizer/text_featurizer.py
浏览文件 @
156a8402
...
...
@@ -118,8 +118,10 @@ class TextFeaturizer():
"""
text
=
text
.
strip
()
if
replace_space
:
text
=
text
.
replace
(
" "
,
SPACE
)
return
list
(
text
)
text_list
=
[
SPACE
if
item
==
" "
else
item
for
item
in
list
(
text
)]
else
:
text_list
=
list
(
text
)
return
text_list
def
char_detokenize
(
self
,
tokens
):
"""Character detokenizer.
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录