Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
DeepSpeech
提交
f399ca9d
D
DeepSpeech
项目概览
PaddlePaddle
/
DeepSpeech
大约 1 年 前同步成功
通知
207
Star
8425
Fork
1598
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
245
列表
看板
标记
里程碑
合并请求
3
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DeepSpeech
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
245
Issue
245
列表
看板
标记
里程碑
合并请求
3
合并请求
3
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
f399ca9d
编写于
4月 16, 2022
作者:
H
Hui Zhang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
format
上级
a054d1c4
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
11 addition
and
8 deletion
+11
-8
utils/compute-wer.py
utils/compute-wer.py
+11
-8
未找到文件。
utils/compute-wer.py
浏览文件 @
f399ca9d
...
...
@@ -2,7 +2,6 @@
# -*- coding: utf-8 -*-
# CopyRight WeNet Apache-2.0 License
import
codecs
import
re
import
sys
import
unicodedata
...
...
@@ -33,7 +32,8 @@ def characterize(string):
else
:
# some input looks like: <unk><noise>, we want to separate it to two words.
sep
=
' '
if
char
==
'<'
:
sep
=
'>'
if
char
==
'<'
:
sep
=
'>'
j
=
i
+
1
while
j
<
len
(
string
):
c
=
string
[
j
]
...
...
@@ -48,7 +48,8 @@ def characterize(string):
def
stripoff_tags
(
x
):
if
not
x
:
return
''
if
not
x
:
return
''
chars
=
[]
i
=
0
T
=
len
(
x
)
...
...
@@ -365,7 +366,7 @@ if __name__ == '__main__':
verbose
=
0
try
:
verbose
=
int
(
b
)
except
:
except
Exception
as
e
:
if
b
==
'true'
or
b
!=
'0'
:
verbose
=
1
continue
...
...
@@ -408,7 +409,8 @@ if __name__ == '__main__':
array
=
characterize
(
line
)
else
:
array
=
line
.
strip
().
split
()
if
len
(
array
)
==
0
:
continue
if
len
(
array
)
==
0
:
continue
fid
=
array
[
0
]
rec_set
[
fid
]
=
normalize
(
array
[
1
:],
ignore_words
,
case_sensitive
,
split
)
...
...
@@ -419,7 +421,8 @@ if __name__ == '__main__':
array
=
characterize
(
line
)
else
:
array
=
line
.
rstrip
(
'
\n
'
).
split
()
if
len
(
array
)
==
0
:
continue
if
len
(
array
)
==
0
:
continue
fid
=
array
[
0
]
if
fid
not
in
rec_set
:
continue
...
...
@@ -526,7 +529,7 @@ if __name__ == '__main__':
for
line
in
open
(
cluster_file
,
'r'
,
encoding
=
'utf-8'
):
for
token
in
line
.
decode
(
'utf-8'
).
rstrip
(
'
\n
'
).
split
():
# end of cluster reached, like </Keyword>
if
token
[
0
:
2
]
==
'</'
and
token
[
len
(
token
)
-
1
]
==
'>'
and
\
if
token
[
0
:
2
]
==
'</'
and
token
[
len
(
token
)
-
1
]
==
'>'
and
\
token
.
lstrip
(
'</'
).
rstrip
(
'>'
)
==
cluster_id
:
result
=
calculator
.
cluster
(
cluster
)
if
result
[
'all'
]
!=
0
:
...
...
@@ -541,7 +544,7 @@ if __name__ == '__main__':
cluster_id
=
''
cluster
=
[]
# begin of cluster reached, like <Keyword>
elif
token
[
0
]
==
'<'
and
token
[
len
(
token
)
-
1
]
==
'>'
and
\
elif
token
[
0
]
==
'<'
and
token
[
len
(
token
)
-
1
]
==
'>'
and
\
cluster_id
==
''
:
cluster_id
=
token
.
lstrip
(
'<'
).
rstrip
(
'>'
)
cluster
=
[]
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录