Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
ERNIE
提交
3979fce0
E
ERNIE
项目概览
PaddlePaddle
/
ERNIE
9 个月 前同步成功
通知
107
Star
5997
Fork
1270
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
29
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
E
ERNIE
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
29
Issue
29
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
3979fce0
编写于
5月 20, 2022
作者:
T
Tesla
提交者:
GitHub
5月 20, 2022
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update README.md
上级
0f614d38
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
4 addition
and
4 deletion
+4
-4
applications/tasks/text_matching/README.md
applications/tasks/text_matching/README.md
+4
-4
未找到文件。
applications/tasks/text_matching/README.md
浏览文件 @
3979fce0
...
...
@@ -60,8 +60,8 @@
### 数据准备
-
在文心中,基于ERNIE的模型都不需要用户自己分词和生成词表文件,非ERNIE的模型需要用户自己提前切好词,词之间以空格分隔,并生成词表文件。切词和词表生成可以使用「
[
分词工具与词表生成工具
](
../../tools/data/wordseg
/README.md
)
」进行处理。
-
文心中的所有数据集、包含词表文件、label_map文件等都必须为为utf-8格式,如果你的数据是其他格式,请使用「
[
编码识别及转换工具
](
../../tools/data/data_cleaning
/README.md
)
」进行格式转换。
-
在文心中,基于ERNIE的模型都不需要用户自己分词和生成词表文件,非ERNIE的模型需要用户自己提前切好词,词之间以空格分隔,并生成词表文件。切词和词表生成可以使用「
[
分词工具与词表生成工具
](
../../tools/data/wordseg
)
」进行处理。
-
文心中的所有数据集、包含词表文件、label_map文件等都必须为为utf-8格式,如果你的数据是其他格式,请使用「
[
编码识别及转换工具
](
../../tools/data/data_cleaning
)
」进行格式转换。
-
在文本匹配任务中,根据其训练方式的不同,训练集分为Pointwise和Pairwise两种格式,测试集、验证集和预测集的格式相同。
-
非ERNIE数据的pointwise训练集、pairwise训练集、测试集、验证集和预测集分别存放在./applications/tasks/text_matching/data目录下的train_data_pointwise_tokenized、train_data_pairwise_tokenized、test_data_tokenized、dev_data_tokenized和predict_data_tokenized文件夹下。
-
ERNIE数据的pointwise训练集、pairwise训练集、测试集、验证集和预测集分别存放在./applications/tasks/text_matching/data目录下的train_data_pointwise、train_data_pairwise、test_data、dev_data和predict_data文件夹下。
...
...
@@ -212,7 +212,7 @@
### ERNIE预训练模型下载
-
文心提供的
[
ERNIE预训练模型
](
../../models_hub
/README.md
)
的下载脚本在applications/models_hub目录下,各预训练模型可由对应的download_xx.sh文件下载得到,用户可根据需求自行下载。其中,ernie_config.json为ERNIE预训练模型的配置文件,vocab.txt为ERNIE预训练模型的词表文件,params目录为ERNIE预训练模型的参数文件目录。
-
文心提供的
[
ERNIE预训练模型
](
../../models_hub
)
的下载脚本在applications/models_hub目录下,各预训练模型可由对应的download_xx.sh文件下载得到,用户可根据需求自行下载。其中,ernie_config.json为ERNIE预训练模型的配置文件,vocab.txt为ERNIE预训练模型的词表文件,params目录为ERNIE预训练模型的参数文件目录。
| 模型名称 | 下载脚本 | 备注 |
| --------------- | ---------------------------------- | ------------------------------------------ |
...
...
@@ -308,4 +308,4 @@ python run_infer.py --param_path ./examples/mtch_ernie_pairwise_simnet_ch_infer.
#预测ErnieMatchingSiamesePointwise模型
python run_infer.py
--param_path
./examples/mtch_ernie_pointwise_simnet_ch_infer.json
```
\ No newline at end of file
```
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录