test=develop (#2246)

63fe2970 · lilu · GitHub · da2f12b4 · 63fe2970
显示空白变更内容
内联并排

Showing with 98 addition and 94 deletion

PaddleNLP/dialogue_model_toolkit/auto_dialogue_evaluation/README.md ...dialogue_model_toolkit/auto_dialogue_evaluation/README.md +98 -94

未找到文件。
--- a/PaddleNLP/dialogue_model_toolkit/auto_dialogue_evaluation/README.md
+++ b/PaddleNLP/dialogue_model_toolkit/auto_dialogue_evaluation/README.md
@@ -3,7 +3,7 @@
 ### 任务说明
 对话自动评估（Auto Dialogue Evaluation）评估开放领域对话系统的回复质量，能够帮助企业或个人快速评估对话系统的回复质量，减少人工评估成本。
 1. 在无标注数据的情况下，利用负采样训练匹配模型作为评估工具，实现对多个对话系统回复质量排序；
-2. 利用少量标注数据（特定对话系统或场景的人工打分），在匹配模型基础上进行微调，可以显著该对话系统或场景的评估效果。
+2. 利用少量标注数据（特定对话系统或场景的人工打分），在匹配模型基础上进行微调，可以显著提高该对话系统或场景的评估效果。

 ### 效果说明
 我们以四个不同的对话系统（seq2seq\_naive／seq2seq\_att／keywords／human）为例，使用对话自动评估工具进行自动评估。
@@ -46,7 +46,7 @@
 ### 开始第一次模型调用
 1. 数据准备

-	下载经过预处理的数据，运行该脚本之后，data目录下会存在unlabel_data(train.ids/val.ids/test.ids/word2ids)，lable_data(四个任务数据train.ids/val.ids/test.ids)
+    下载经过预处理的数据，运行该脚本之后，data目录下会存在unlabel_data(train.ids/val.ids/test.ids)，lable_data(四个任务数据train.ids/val.ids/test.ids)，以及word2ids.

    该项目只开源测试集数据，其他数据仅提供样例。
    ```
@@ -74,7 +74,7 @@

 3. 模型预测

-	基于上面的模型和数据，可以运行下面的命令直接对对话数据进行打分。
+    基于上面的模型和数据，可以运行下面的命令直接对对话数据进行打分(预测结果输出在test_path中).
    ```
    TASK=human
    python -u main.py \
@@ -152,6 +152,10 @@
 利用少量标注数据，在匹配模型基础上微调。
 ### 数据格式说明
 训练、预测、评估使用的数据示例如下，数据由三列组成，以制表符（'\t'）分隔，第一列是以空格分开的上文id，第二列是以空格分开的回复id，第三列是标签
+```
+723 236 7823 12 8     887 13 77 4       2
+8474 13 44 34         2 87 91 23       0
+```

 注：本项目额外提供了分词预处理脚本（在preprocess目录下），可供用户使用，具体使用方法如下：
 ```