From f5fc7f7bc53a151a674fd48bf46f873f378a2e5b Mon Sep 17 00:00:00 2001 From: wuzewu Date: Wed, 8 Apr 2020 10:12:54 +0800 Subject: [PATCH] Update how_to_load_data.md --- docs/tutorial/how_to_load_data.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/docs/tutorial/how_to_load_data.md b/docs/tutorial/how_to_load_data.md index 15048a3f..b56b0e8e 100644 --- a/docs/tutorial/how_to_load_data.md +++ b/docs/tutorial/how_to_load_data.md @@ -22,6 +22,7 @@ 如果您有两个输入文本text_a、text_b,则第一列为第一个输入文本text_a, 第二列应为第二个输入文本text_b,第三列文本类别label。列与列之间以Tab键分隔。数据集第一行为`text_a text_b label`(中间以Tab键分隔)。 + ```text text_a label 15.4寸笔记本的键盘确实爽,基本跟台式机差不多了,蛮喜欢数字小键盘,输数字特方便,样子也很美观,做工也相当不错 1 @@ -36,6 +37,7 @@ text_a label * 数据集文件编码格式建议为utf8格式。 * 如果相应的数据集文件没有上述的列说明,如train.tsv文件没有第一行的`text_a label`,则train_file_with_header=False。 * 如果您还有预测数据(没有文本类别),可以将预测数据存放在predict.tsv文件,文件格式和train.tsv类似。去掉label一列即可。 +* 分类任务中,数据集的label必须从0开始计数 ```python @@ -117,6 +119,7 @@ dog * 训练/验证/测试集的数据列表文件中的图片路径需要相对于dataset_dir的相对路径,例如图片的实际位置为`/test/data/dog/dog1.jpg`。base_path为`/test/data`,则文件中填写的路径应该为`dog/dog1.jpg`。 * 如果您还有预测数据(没有文本类别),可以将预测数据存放在predict_list.txt文件,文件格式和train_list.txt类似。去掉label一列即可 * 如果您的数据集类别较少,可以不用定义label_list.txt,可以选择定义label_list=["数据集所有类别"]。 +* 分类任务中,数据集的label必须从0开始计数 ```python from paddlehub.dataset.base_cv_dataset import BaseCVDataset -- GitLab