Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleHub
提交
cf2e2c78
P
PaddleHub
项目概览
PaddlePaddle
/
PaddleHub
大约 1 年 前同步成功
通知
282
Star
12117
Fork
2091
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
200
列表
看板
标记
里程碑
合并请求
4
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleHub
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
200
Issue
200
列表
看板
标记
里程碑
合并请求
4
合并请求
4
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
cf2e2c78
编写于
1月 06, 2021
作者:
K
KP
提交者:
GitHub
1月 06, 2021
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update download_data wrapper
上级
a5c91d1d
变更
4
隐藏空白更改
内联
并排
Showing
4 changed file
with
12 addition
and
9 deletion
+12
-9
demo/sequence_labeling/README.md
demo/sequence_labeling/README.md
+1
-1
demo/sequence_labeling/train.py
demo/sequence_labeling/train.py
+1
-1
paddlehub/datasets/msra_ner.py
paddlehub/datasets/msra_ner.py
+2
-2
paddlehub/utils/download.py
paddlehub/utils/download.py
+8
-5
未找到文件。
demo/sequence_labeling/README.md
浏览文件 @
cf2e2c78
...
...
@@ -32,7 +32,7 @@ python train.py
在命名实体识别的任务中,因不同的数据集标识实体的标签不同,评测的方式也有所差异。因此,在初始化模型的之前,需要先确定实际标签的形式,下方的
`label_list`
则是MSRA-NER数据集中使用的标签类别。
如果用户使用的实体识别的数据集的标签方式与MSRA-NER不同,则需要自行根据数据集确定。
```
python
label_list
=
[
"B-PER"
,
"I-PER"
,
"B-ORG"
,
"I-ORG"
,
"B-LOC"
,
"I-LOC"
,
"O"
]
label_list
=
hub
.
datasets
.
MSRA_NER
.
label_list
label_map
=
{
idx
:
label
for
idx
,
label
in
enumerate
(
label_list
)
}
...
...
demo/sequence_labeling/train.py
浏览文件 @
cf2e2c78
...
...
@@ -32,7 +32,7 @@ args = parser.parse_args()
if
__name__
==
'__main__'
:
label_list
=
[
"B-PER"
,
"I-PER"
,
"B-ORG"
,
"I-ORG"
,
"B-LOC"
,
"I-LOC"
,
"O"
]
label_list
=
MSRA_NER
.
label_list
label_map
=
{
idx
:
label
for
idx
,
label
in
enumerate
(
label_list
)
}
...
...
paddlehub/datasets/msra_ner.py
浏览文件 @
cf2e2c78
...
...
@@ -31,6 +31,7 @@ class MSRA_NER(SeqLabelingDataset):
for research purposes. For more information please refer to
https://www.microsoft.com/en-us/download/details.aspx?id=52531
"""
label_list
=
[
"B-PER"
,
"I-PER"
,
"B-ORG"
,
"I-ORG"
,
"B-LOC"
,
"I-LOC"
,
"O"
]
def
__init__
(
self
,
...
...
@@ -39,7 +40,6 @@ class MSRA_NER(SeqLabelingDataset):
mode
:
str
=
'train'
,
):
base_path
=
os
.
path
.
join
(
DATA_HOME
,
"msra_ner"
)
label_list
=
[
"B-PER"
,
"I-PER"
,
"B-ORG"
,
"I-ORG"
,
"B-LOC"
,
"I-LOC"
,
"O"
]
if
mode
==
'train'
:
data_file
=
'train.tsv'
...
...
@@ -54,6 +54,6 @@ class MSRA_NER(SeqLabelingDataset):
mode
=
mode
,
data_file
=
data_file
,
label_file
=
None
,
label_list
=
label_list
,
label_list
=
self
.
label_list
,
is_file_with_header
=
True
,
)
paddlehub/utils/download.py
浏览文件 @
cf2e2c78
...
...
@@ -25,17 +25,20 @@ from paddlehub.utils import log, utils, xarfile
def
download_data
(
url
):
def
_wrapper
(
Dataset
):
def
_download_dataset_from_url
(
*
args
,
**
kwargs
):
def
_check_download
():
save_name
=
os
.
path
.
basename
(
url
).
split
(
'.'
)[
0
]
output_path
=
os
.
path
.
join
(
hubenv
.
DATA_HOME
,
save_name
)
lock
=
filelock
.
FileLock
(
os
.
path
.
join
(
hubenv
.
TMP_HOME
,
save_name
))
with
lock
:
if
not
os
.
path
.
exists
(
output_path
):
default_downloader
.
download_file_and_uncompress
(
url
,
hubenv
.
DATA_HOME
,
True
)
return
Dataset
(
*
args
,
**
kwargs
)
return
_download_dataset_from_url
class
WrapperDataset
(
Dataset
):
def
__new__
(
cls
,
*
args
,
**
kwargs
):
_check_download
()
return
super
(
WrapperDataset
,
cls
).
__new__
(
cls
)
return
WrapperDataset
return
_wrapper
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录