Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleHub
提交
6b384b72
P
PaddleHub
项目概览
PaddlePaddle
/
PaddleHub
大约 1 年 前同步成功
通知
282
Star
12117
Fork
2091
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
200
列表
看板
标记
里程碑
合并请求
4
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleHub
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
200
Issue
200
列表
看板
标记
里程碑
合并请求
4
合并请求
4
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
6b384b72
编写于
12月 23, 2019
作者:
S
Steffy-zxf
提交者:
GitHub
12月 23, 2019
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update README.md
上级
1d111d61
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
26 addition
and
1 deletion
+26
-1
demo/multi-label-classification/README.md
demo/multi-label-classification/README.md
+26
-1
未找到文件。
demo/multi-label-classification/README.md
浏览文件 @
6b384b72
...
...
@@ -2,6 +2,16 @@
本示例将展示如何使用PaddleHub Finetune API以及BERT预训练模型在Toxic完成多标签分类任务。
多标签分类是广义的多分类,多分类是将样本精确地分类为两个以上类别之一的单标签问题。 在多标签问题中,样本可以分配给多个类别,没有限制。
如下图所示:
<p
align=
"center"
>
<img
src=
"https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.4/docs/imgs/multi-label-cls.png"
hspace=
'10'
/>
<br
/>
</p>
*图片来源于https://mc.ai/building-a-multi-label-text-classifier-using-bert-and-tensorflow/*
## 如何开始Finetune
在完成安装PaddlePaddle与PaddleHub后,通过执行脚本
`sh run_classifier.sh`
即可开始使用BERT对Toxic数据集进行Finetune。
...
...
@@ -29,10 +39,25 @@
### Step1: 加载预训练模型
```
python
module
=
hub
.
Module
(
name
=
"
bert_uncased_L-12_H-768_A-12
"
)
module
=
hub
.
Module
(
name
=
"
ernie_v2_eng_base
"
)
inputs
,
outputs
,
program
=
module
.
context
(
trainable
=
True
,
max_seq_len
=
128
)
```
其中最大序列长度
`max_seq_len`
是可以调整的参数,建议值128,根据任务文本长度不同可以调整该值,但最大不超过512。
PaddleHub还提供BERT等模型可供选择, 模型对应的加载示例如下:
模型名 | PaddleHub Module
---------------------------------- | :------:
ERNIE 2.0 Base, English |
`hub.Module(name='ernie_v2_eng_base')`
ERNIE 2.0 Large, English |
`hub.Module(name='ernie_v2_eng_large')`
BERT-Base, Uncased |
`hub.Module(name='bert_uncased_L-12_H-768_A-12')`
BERT-Large, Uncased |
`hub.Module(name='bert_uncased_L-24_H-1024_A-16')`
BERT-Base, Cased |
`hub.Module(name='bert_cased_L-12_H-768_A-12')`
BERT-Large, Cased |
`hub.Module(name='bert_cased_L-24_H-1024_A-16')`
更多模型请参考
[
PaddleHub官网
](
https://www.paddlepaddle.org.cn/hub?filter=hot&value=1
)
。
### Step2: 准备数据集并使用MultiLabelClassifyReader读取数据
```
python
dataset
=
hub
.
dataset
.
Toxic
()
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录