未验证 提交 63fe2970 编写于 作者: L lilu 提交者: GitHub

test=develop (#2246)

上级 da2f12b4
...@@ -3,7 +3,7 @@ ...@@ -3,7 +3,7 @@
### 任务说明 ### 任务说明
对话自动评估(Auto Dialogue Evaluation)评估开放领域对话系统的回复质量,能够帮助企业或个人快速评估对话系统的回复质量,减少人工评估成本。 对话自动评估(Auto Dialogue Evaluation)评估开放领域对话系统的回复质量,能够帮助企业或个人快速评估对话系统的回复质量,减少人工评估成本。
1. 在无标注数据的情况下,利用负采样训练匹配模型作为评估工具,实现对多个对话系统回复质量排序; 1. 在无标注数据的情况下,利用负采样训练匹配模型作为评估工具,实现对多个对话系统回复质量排序;
2. 利用少量标注数据(特定对话系统或场景的人工打分),在匹配模型基础上进行微调,可以显著该对话系统或场景的评估效果。 2. 利用少量标注数据(特定对话系统或场景的人工打分),在匹配模型基础上进行微调,可以显著提高该对话系统或场景的评估效果。
### 效果说明 ### 效果说明
我们以四个不同的对话系统(seq2seq\_naive/seq2seq\_att/keywords/human)为例,使用对话自动评估工具进行自动评估。 我们以四个不同的对话系统(seq2seq\_naive/seq2seq\_att/keywords/human)为例,使用对话自动评估工具进行自动评估。
...@@ -46,7 +46,7 @@ ...@@ -46,7 +46,7 @@
### 开始第一次模型调用 ### 开始第一次模型调用
1. 数据准备 1. 数据准备
下载经过预处理的数据,运行该脚本之后,data目录下会存在unlabel_data(train.ids/val.ids/test.ids/word2ids),lable_data(四个任务数据train.ids/val.ids/test.ids) 下载经过预处理的数据,运行该脚本之后,data目录下会存在unlabel_data(train.ids/val.ids/test.ids),lable_data(四个任务数据train.ids/val.ids/test.ids),以及word2ids.
该项目只开源测试集数据,其他数据仅提供样例。 该项目只开源测试集数据,其他数据仅提供样例。
``` ```
...@@ -74,7 +74,7 @@ ...@@ -74,7 +74,7 @@
3. 模型预测 3. 模型预测
基于上面的模型和数据,可以运行下面的命令直接对对话数据进行打分。 基于上面的模型和数据,可以运行下面的命令直接对对话数据进行打分(预测结果输出在test_path中).
``` ```
TASK=human TASK=human
python -u main.py \ python -u main.py \
...@@ -152,6 +152,10 @@ ...@@ -152,6 +152,10 @@
利用少量标注数据,在匹配模型基础上微调。 利用少量标注数据,在匹配模型基础上微调。
### 数据格式说明 ### 数据格式说明
训练、预测、评估使用的数据示例如下,数据由三列组成,以制表符('\t')分隔,第一列是以空格分开的上文id,第二列是以空格分开的回复id,第三列是标签 训练、预测、评估使用的数据示例如下,数据由三列组成,以制表符('\t')分隔,第一列是以空格分开的上文id,第二列是以空格分开的回复id,第三列是标签
```
723 236 7823 12 8 887 13 77 4 2
8474 13 44 34 2 87 91 23 0
```
注:本项目额外提供了分词预处理脚本(在preprocess目录下),可供用户使用,具体使用方法如下: 注:本项目额外提供了分词预处理脚本(在preprocess目录下),可供用户使用,具体使用方法如下:
``` ```
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册