Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
DeepSpeech
提交
f52ad5e5
D
DeepSpeech
项目概览
PaddlePaddle
/
DeepSpeech
1 年多 前同步成功
通知
207
Star
8425
Fork
1598
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
245
列表
看板
标记
里程碑
合并请求
3
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DeepSpeech
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
245
Issue
245
列表
看板
标记
里程碑
合并请求
3
合并请求
3
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
f52ad5e5
编写于
3月 22, 2018
作者:
R
Rai220
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Add detailed errors about symbols out of vocab
上级
dad1c272
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
7 addition
and
2 deletion
+7
-2
data_utils/featurizer/text_featurizer.py
data_utils/featurizer/text_featurizer.py
+7
-2
未找到文件。
data_utils/featurizer/text_featurizer.py
浏览文件 @
f52ad5e5
# -*- coding: utf-8 -*-
"""Contains the text featurizer class."""
"""Contains the text featurizer class."""
from
__future__
import
absolute_import
from
__future__
import
absolute_import
from
__future__
import
division
from
__future__
import
division
...
@@ -32,8 +33,12 @@ class TextFeaturizer(object):
...
@@ -32,8 +33,12 @@ class TextFeaturizer(object):
:return: List of char-level token indices.
:return: List of char-level token indices.
:rtype: list
:rtype: list
"""
"""
tokens
=
self
.
_char_tokenize
(
text
)
result
=
[]
return
[
self
.
_vocab_dict
[
token
]
for
token
in
tokens
]
try
:
result
=
[
self
.
_vocab_dict
[
token
]
for
token
in
text
]
except
KeyError
,
e
:
print
(
'Incorrect symbol "%s" found in string: '
%
str
(
e
).
encode
(
'utf-8'
),
text
.
encode
(
'utf-8'
))
return
result
@
property
@
property
def
vocab_size
(
self
):
def
vocab_size
(
self
):
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录