**若您想在自定义数据集上完成Fine-tune,请查看[PaddleHub适配自定义数据完成Fine-tune](../tutorial/how_to_load_data.md)** ## hub.dataset ### Class `hub.dataset.ChnSentiCorp` ChnSentiCorp 是中文情感分析数据集,其目标是判断一段文本的情感态度。 **示例** ```python import paddlehub as hub dataset = hub.dataset.ChnSentiCorp() ``` 数据集样例 ```text label text_a 1 选择珠江花园的原因就是方便,有电动扶梯直接到达海边,周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般,但还算整洁。 泳池在大堂的屋顶,因此很小,>不过女儿倒是喜欢。 包的早餐是西式的,还算丰富。 服务吗,一般 1 15.4寸笔记本的键盘确实爽,基本跟台式机差不多了,蛮喜欢数字小键盘,输数字特方便,样子也很美观,做工也相当不错 0 房间太小。其他的都一般。。。。。。。。。 ... ``` 以上类别“0”表示反对态度,“1”表示支持态度。每个字段以tab键分隔。 ### Class `hub.dataset.LCQMC` LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问答匹配中文数据集,其目标是判断两个问题的语义是否相同。 **示例** ```python import paddlehub as hub dataset = hub.dataset.LCQMC() ``` 数据集样例 ```text text_a text_b label 喜欢打篮球的男生喜欢什么样的女生 爱打篮球的男生喜欢什么样的女生 1 我手机丢了,我想换个手机 我想买个新手机,求推荐 1 大家觉得她好看吗 大家觉得跑男好看吗? 0 ... ``` 以上类别“0”表示语义相同,“1”表示语义相反。每个字段以tab键分隔。 ### Class `hub.dataset.NLPCC_DPQA` NLPCC_DPQA 是由国际自然语言处理和中文计算会议NLPCC于2016年举办的评测任务,其目标是选择能够回答问题的答案。 **示例** ```python import paddlehub as hub dataset = hub.dataset.NLPCC_DPQA() ``` 数据集样例 ```text qid text_a text_b label 0 黑缘粗角肖叶甲触角有多大? 触角近于体长之半,第1节粗大,棒状,第2节短,椭圆形,3、4两节细长,稍短于第5节,第5节基细端粗,末端6节明显粗大。 1 0 黑缘粗角肖叶甲触角有多大? 前胸前侧片前缘直;前胸后侧片具粗大刻点。 0 0 黑缘粗角肖叶甲触角有多大? 足粗壮;胫节具纵脊,外端角向外延伸,呈弯角状;爪具附齿。 0 1 暮光闪闪的姐姐是谁? 暮光闪闪是一匹雌性独角兽,后来在神秘魔法的影响下变成了空角兽(公主),她是《我的小马驹:友情是魔法》(英文名:My Little Pony:Friendship is Magic)中的主角之一。 0 1 暮光闪闪的姐姐是谁? 她是银甲闪闪(Shining Armor)的妹妹,同时也是韵律公主(Princess Cadance)的小姑子。 1 ... ``` 以上qid表示问题的序号,类别“0”表示相应问题的错误答案,类别“1”表示相应问题的正确答案。每个字段以tab键分隔。 ### Class `hub.dataset.MSRA_NER` MSRA-NER(SIGHAN 2006) 数据集由微软亚研院发布,其目标是命名实体识别,是指识别中文文本中具有特定意义的实体,主要包括人名、地名、机构名等。 **示例** ```python import paddlehub as hub dataset = hub.dataset.MSRA-NER() ``` 数据集样例 ```text text_a label 海^B钓^B比^B赛^B地^B点^B在^B厦^B门^B与^B金^B门^B之^B间^B的^B海^B域^B。 O^BO^BO^BO^BO^BO^BO^BB-LOC^BI-LOC^BO^BB-LOC^BI-LOC^BO^BO^BO^BO^BO^BO 这^B座^B依^B山^B傍^B水^B的^B博^B物^B馆^B由^B国^B内^B一^B流^B的^B设^B计^B师^B主^B持^B设^B计^B,^B整^B个^B建^B筑^B群^B精^B美^B而^B恢^B宏^B。 O^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO 但^B作^B为^B一^B个^B共^B产^B党^B员^B、^B人^B民^B公^B仆^B,^B应^B当^B胸^B怀^B宽^B阔^B,^B真^B正^B做^B到^B“^B先^B天^B下^B之^B忧^B而^B忧^B,^B后^B天^B下^B之^B乐^B而^B乐^B”^B,^B淡^B化^B个^B人^B的^B名^B利^B得^B失^B和^B宠^B辱^B悲^B喜^B,^B把^B改^B革^B大^B业^B摆^B在^B首^B位^B,^B这^B样^B才^B能^B超^B越^B自^B我^B,^B摆^B脱 ^B世^B俗^B,^B有^B所^B作^B为^B。 O^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO^BO ... ``` 以上label是针对每一个字的标签,并且一句话中的每个字以不可见字符“\002”分隔(如上述“^B”)。每个字段以tab键分隔。标注规则如下表: | 标签 | 定义 | | ---- | ---- | | B-LOC | 地点的起始位置 | | I-LOC | 地点的中间或结束位置 | | B-PER | 人名的起始位置 | | I-PER | 人名的中间或结束位置 | | B-ORG | 机构名的起始位置 | | I-ORG | 机构名的中间或者结束位置 | | O | 不关注的字 | ### Class `hub.dataset.Toxic` Toxic 是英文多标签分类数据集,其目标是将一段话打上6个标签,toxic(恶意),severetoxic(穷凶极恶),obscene(猥琐),threat(恐吓),insult(侮辱),identityhate(种族歧视),这些标签并不是互斥的。即这段话可以打上多个标签。 如 **示例** ```python import paddlehub as hub dataset = hub.dataset.Toxic() ``` 数据集样例 ```text id,comment_text,toxic,severe_toxic,obscene,threat,insult,identity_hate 0000997932d777bf,"Explanation Why the edits made under my username Hardcore Metallica Fan were reverted? They weren't vandalisms, just closure on some GAs after I voted at New York Dolls FAC. And please don't remove the template from the talk page since I'm retired now.89.205.38.27",0,0,0,0,0,0 000103f0d9cfb60f,"D'aww! He matches this background colour I'm seemingly stuck with. Thanks. (talk) 21:51, January 11, 2016 (UTC)",0,0,0,0,0,0 0002bcb3da6cb337,COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK,1,1,1,0,1,0 ... ``` 每个字段以","分隔。第一列表示样本ID,第二列表示样本文本数据,第3-8列表示相应样本是否含有对应的标签(0表示没有对应列的标签,1表示有对应列的标签)。如示例数据中的第三条数据,表示文本"COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK"有标签toxic、severe_toxic、obscene和insult。 ### Class `hub.dataset.SQUAD` SQuAD 是英文阅读理解数据集,给定一个段落文本以及一个问题,其目标是在该段落中找到问题的答案位置。 **示例** ```python import paddlehub as hub dataset = hub.dataset.SQUAD() ``` 关于该数据集详细信息可以参见[SQuAD官网介绍](https://rajpurkar.github.io/SQuAD-explorer/) ### Class `hub.dataset.GLUE` GLUE是一个英文数据集集合,包含9项自然语言理解任务数据集: - 文本分类任务数据集CoLA,其目标是给定一个句子,判断其语法正确性。 - 情感分析任务数据集吧SST-2,其目标是给定一个句子,判断其情感极性。 - 句子对分类任务数据集MRPC,其目标是给定两个句子,判断它们是否具有相同的语义关系。 - 回归任务数据集STS-B,其目标是给定两个句子,计算它们的语义相似性。 - 句子对分类任务数据集QQP,其目标是给定两个句子,判断它们是否具有相同的语义关系。 - 文本推理任务数据集MNLI,其目标是给定前提与假设,判断它们的逻辑关系(“矛盾“ / “中立” / “蕴含”)。该数据集又分为“匹配”与“不匹配”两个版本,“匹配”与“不匹配”指的是训练集与测试集的数据来源是否一致,是否属于相同领域风格的文本。在PaddleHub中,您可以通过“MNLI_m”和"MNLI_mm"来指定不同的版本 - 问题推理任务QNLI,其目标是给定问题,判断它的回答是否正确。 - 文本蕴含任务RTE,其目标是给定两个句子,判断它们是否具有蕴含关系。 - 文本蕴含任务WNLI,其目标是给定两个句子,判断它们是否具有蕴含关系。由于该数据集存在一些问题,我们暂时没有实现该数据集。 **示例** ```python import paddlehub as hub dataset = hub.dataset.GLUE(sub_dataset='SST-2') MNLI_Matched = hub.dataset.GLUE(sub_dataset='MNLI_m') MNLI_MisMatched = hub.dataset.GLUE(sub_dataset='MNLI_mm') ``` 关于该数据集详细信息可以参见[GLUE官网介绍](https://gluebenchmark.com/) ### Class `hub.dataset.XNLI` XNLI是一个跨语言自然语言推理数据集,其目标是给定前提与假设,判断它们的逻辑关系(“矛盾“ / “中立” / “蕴含”)。XNLI的验证集与测试集包含15种语言版本,在BERT与ERNIE中,它的训练集来自英文数据集MNLI,将其翻译至对应的语言版本即可。我们采用了相同的数据集方案,并划分了15种语言的数据集:
ar - Arabic | bg - Bulgarian | de - German |
el - Greek | en - English | es - Spanish |
fr - French | hi - Hindi | ru - Russian |
sw - Swahili | th - Thai | tr - Turkish |
ur - Urdu | vi - Vietnamese | zh - Chinese |