txt017_09.md 37.0 KB
Newer Older
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1 2
# torchtext.datasets

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
3
> 原文:[`pytorch.org/text/stable/datasets.html`](https://pytorch.org/text/stable/datasets.html)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
4 5 6

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
7
torchtext 支持的数据集是来自[torchdata 项目](https://pytorch.org/data/beta/index.html)的数据管道,该项目仍处于 Beta 状态。这意味着 API 可能会在没有弃用周期的情况下发生更改。特别是,我们期望随着`torchdata`发布`DataLoaderV2`,当前的许多惯用法会发生变化。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
8 9 10

以下是关于数据管道使用的一些建议:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
11
+   要对数据管道进行洗牌,请在 DataLoader 中进行:`DataLoader(dp, shuffle=True)`。您不需要调用`dp.shuffle()`,因为`torchtext`已经为您做了。但请注意,除非您明确将`shuffle=True`传递给 DataLoader,否则数据管道不会被洗牌。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
12 13 14 15 16 17 18 19 20 21 22 23

+   在使用多处理(`num_workers=N`)时,请使用内置的`worker_init_fn`

    ```py
    from torch.utils.data.backward_compatibility import worker_init_fn
    DataLoader(dp, num_workers=4, worker_init_fn=worker_init_fn, drop_last=True) 
    ```

    这将确保数据在工作进程之间不会重复。

+   我们还建议使用`drop_last=True`。如果不这样做,在某些情况下,一个时期结束时的批次大小可能会非常小(比其他映射样式数据集的批次大小小)。这可能会对准确性产生很大影响,特别是在使用批量归一化时。`drop_last=True`确保所有批次大小相等。

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
24
+   使用`DistributedDataParallel`进行分布式训练目前还不够稳定/支持,我们不建议在这一点上使用。它将在 DataLoaderV2 中得到更好的支持。如果您仍希望使用 DDP,请确保:
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
25

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
26
    +   所有工作进程(DDP 工作进程*和*DataLoader 工作进程)看到数据的不同部分。数据集已经包装在[ShardingFilter](https://pytorch.org/data/main/generated/torchdata.datapipes.iter.ShardingFilter.html)中,您可能需要调用`dp.apply_sharding(num_shards, shard_id)`以将数据分片到排名(DDP 工作进程)和 DataLoader 工作进程中。一种方法是创建`worker_init_fn`,该函数调用`apply_sharding`并传递适当数量的分片(DDP 工作进程*DataLoader 工作进程)和分片 ID(通过排名和相应 DataLoader 的工作 ID 推断)。但请注意,这假定所有排名的 DataLoader 工作进程数量相等。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
27

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
28
    +   所有 DDP 工作进程处理相同数量的批次。一种方法是通过将每个工作进程内的数据管道大小限制为`len(datapipe) // num_ddp_workers`来实现,但这可能不适用于所有用例。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
29 30 31 32 33

    +   洗牌种子在所有工作进程中是相同的。您可能需要调用`torch.utils.data.graph_settings.apply_shuffle_seed(dp, rng)`

    +   洗牌种子在不同的时期是不同的。

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
34
    +   RNG 的其余部分(通常用于转换)在工作进程之间是**不同**的,以获得最大熵和最佳准确性。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55

一般用例如下:

```py
# import datasets
from torchtext.datasets import IMDB

train_iter = IMDB(split='train')

def tokenize(label, line):
    return line.split()

tokens = []
for label, line in train_iter:
    tokens += tokenize(label, line) 
```

目前提供以下数据集。如果您想向存储库贡献新数据集或使用自己的自定义数据集,请参考[CONTRIBUTING_DATASETS.md](https://github.com/pytorch/text/blob/main/CONTRIBUTING_DATASETS.md)指南。

数据集

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
56
+   Text Classification
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
57

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
58
    +   AG_NEWS
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
59

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
60
    +   AmazonReviewFull
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
61

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
62
    +   AmazonReviewPolarity
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
63

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
64
    +   CoLA
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
65

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
66
    +   DBpedia
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
67

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
68
    +   IMDb
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
69

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
70
    +   MNLI
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
71

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
72
    +   MRPC
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
73

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
74
    +   QNLI
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
75

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
76
    +   QQP
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
77

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
78
    +   RTE
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
79

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
80
    +   SogouNews
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
81

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
82
    +   SST2
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
83

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
84
    +   STSB
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
85

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
86
    +   WNLI
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
87

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
88
    +   YahooAnswers
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
89

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
90
    +   YelpReviewFull
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
91

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
92
    +   YelpReviewPolarity
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
93

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
94
+   Language Modeling
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
95

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
96
    +   PennTreebank
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
97

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
98
    +   WikiText-2
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
99

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
100
    +   WikiText103
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
101

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
102
+   Machine Translation
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
103

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
104
    +   IWSLT2016
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
105

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
106
    +   IWSLT2017
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
107

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
108
    +   Multi30k
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
109

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
110
+   Sequence Tagging
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
111

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
112
    +   CoNLL2000Chunking
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
113

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
114
    +   UDPOS
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
115

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
116
+   Question Answer
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
117

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
118
    +   SQuAD 1.0
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
119

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
120
    +   SQuAD 2.0
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
121

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
122
+   Unsupervised Learning
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
123

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
124
    +   CC100
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
125

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
126
    +   EnWik9
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
127

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
128
## 文本分类
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
129

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
130
### AG_NEWS
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
131 132

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
133
torchtext.datasets.AG_NEWS(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
134 135
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
136
AG_NEWS 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
137 138 139

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
140
目前仍然存在一些注意事项,使用 datapipes。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
141

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
142
有关更多详细信息,请参阅[`paperswithcode.com/dataset/ag-news`](https://paperswithcode.com/dataset/ag-news)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
143 144 145 146 147 148 149 150 151 152 153 154 155 156 157

每个拆分的行数:

+   训练:120000

+   测试:7600

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
158
DataPipe,产生标签(1 到 4)和文本的元组
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
159 160 161

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
162
[int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)")[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
163

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
164
### AmazonReviewFull
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
165 166

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
167
torchtext.datasets.AmazonReviewFull(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
168 169
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
170
AmazonReviewFull 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
171 172 173

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
174
目前仍然存在一些注意事项,使用 datapipes。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
175

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
176
有关更多详细信息,请参阅[`arxiv.org/abs/1509.01626`](https://arxiv.org/abs/1509.01626)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
177 178 179 180 181 182 183 184 185 186 187 188 189 190 191

每个拆分的行数:

+   训练:3000000

+   测试:650000

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
192
DataPipe,产生标签(1 到 5)和包含评论标题和文本的文本的元组
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
193 194 195

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
196
[int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)")[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
197

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
198
### AmazonReviewPolarity
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
199 200

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
201
torchtext.datasets.AmazonReviewPolarity(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
202 203
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
204
AmazonReviewPolarity 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
205 206 207

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
208
目前仍然存在一些注意事项,使用 datapipes。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
209

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
210
有关更多详细信息,请参阅[`arxiv.org/abs/1509.01626`](https://arxiv.org/abs/1509.01626)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
211 212 213 214 215 216 217 218 219 220 221 222 223 224 225

每个拆分的行数:

+   训练:3600000

+   测试:400000

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
226
DataPipe,产生标签(1 到 2)和包含评论标题和文本的文本的元组
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
227 228 229

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
230
[int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)")[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
231

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
232
### CoLA
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
233 234

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
235
torchtext.datasets.CoLA(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'dev', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
236 237
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
238
CoLA 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
239 240 241

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
242
目前仍然存在一些注意事项,使用 datapipes。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
243

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
244
有关更多详细信息,请参阅[`nyu-mll.github.io/CoLA/`](https://nyu-mll.github.io/CoLA/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261

每个拆分的行数:

+   训练:8551

+   开发:527

+   测试:516

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,dev,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
262
DataPipe,从 CoLA 数据集产生行(源(str),标签(int),句子(str))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
263 264 265

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
266
[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")[int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)")[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
267

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
268
### DBpedia
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
269 270

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
271
torchtext.datasets.DBpedia(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
272 273
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
274
DBpedia 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
275 276 277

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
278
目前仍然存在一些注意事项,如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
279

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
280
有关更多详细信息,请参阅[`www.dbpedia.org/resources/latest-core/`](https://www.dbpedia.org/resources/latest-core/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
281 282 283 284 285 286 287 288 289 290 291 292 293 294 295

每个拆分的行数:

+   训练:560000

+   测试:70000

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
296
DataPipe,产生包含新闻标题和内容的标签元组(1 到 14)和文本
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
297 298 299

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
300
([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
301

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
302
### IMDb
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
303 304

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
305
torchtext.datasets.IMDB(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
306 307
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
308
IMDB 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
309 310 311

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
312
目前仍然存在一些注意事项,如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
313

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
314
有关更多详细信息,请参阅[`ai.stanford.edu/~amaas/data/sentiment/`](http://ai.stanford.edu/~amaas/data/sentiment/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
315 316 317 318 319 320 321 322 323 324 325 326 327 328 329

每个拆分的行数:

+   训练:25000

+   测试:25000

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
330
DataPipe,产生包含电影评论的标签元组(1 到 2)和文本
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
331 332 333

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
334
([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
335 336 337

使用`IMDB`的教程:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
338
![T5-基础模型用于摘要、情感分类和翻译](img/054ec2c5b6c69ac648ddd68d0b5494e6.png)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
339

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
340
T5-基础模型用于摘要、情感分类和翻译
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
341 342 343

T5-基础模型用于摘要、情感分类和翻译

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
344
### MNLI
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
345 346

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
347
torchtext.datasets.MNLI(root='.data', split=('train', 'dev_matched', 'dev_mismatched'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
348 349
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
350
MNLI 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
351 352 353

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
354
目前仍然存在一些注意事项,如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
355

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
356
有关更多详细信息,请参阅[`cims.nyu.edu/~sbowman/multinli/`](https://cims.nyu.edu/~sbowman/multinli/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373

每个拆分的行数:

+   训练:392702

+   dev_matched:9815

+   dev_mismatched:9832

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,dev_matched,dev_mismatched)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
374
DataPipe,产生包含文本和标签(0 到 2)的元组。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
375 376 377

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
378
元组[[int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")]
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
379

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
380
### MRPC
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
381 382

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
383
torchtext.datasets.MRPC(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
384 385
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
386
MRPC 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
387 388 389

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
390
目前仍然存在一些注意事项,如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
391

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
392
有关更多详细信息,请参阅[`www.microsoft.com/en-us/download/details.aspx?id=52398`](https://www.microsoft.com/en-us/download/details.aspx?id=52398)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
393 394 395 396 397 398 399 400 401 402 403 404 405 406 407

每个拆分的行数:

+   训练:4076

+   测试:1725

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
408
DataPipe,产生来自 MRPC 数据集的数据点,其中包含标签、句子 1、句子 2
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
409 410 411

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
412
[int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
413

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
414
### QNLI
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
415 416

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
417
torchtext.datasets.QNLI(root='.data', split=('train', 'dev', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
418 419
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
420
QNLI 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
421

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
422
有关更多详细信息,请参阅[`arxiv.org/pdf/1804.07461.pdf`](https://arxiv.org/pdf/1804.07461.pdf)(来自 GLUE 论文)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439

每个拆分的行数:

+   train:104743

+   dev:5463

+   test:5463

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,dev,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
440
DataPipe,产生文本和标签(0 和 1)的元组。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
441 442 443

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
444
[int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
445

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
446
### QQP
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
447 448

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
449
torchtext.datasets.QQP(root: str)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
450 451
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
452
QQP 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
453 454 455

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
456
使用 datapipes 目前仍然受到一些注意事项的限制。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
457

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
458
有关更多详细信息,请参阅[`quoradata.quora.com/First-Quora-Dataset-Release-Question-Pairs`](https://quoradata.quora.com/First-Quora-Dataset-Release-Question-Pairs)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
459 460 461 462 463 464 465

参数:

**root** - 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
466
DataPipe,产生来自 QQP 数据集的行(标签(int),问题 1(str),问题 2(str))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
467 468 469

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
470
[int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
471

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
472
### RTE
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
473 474

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
475
torchtext.datasets.RTE(root='.data', split=('train', 'dev', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
476 477
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
478
RTE 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
479

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
480
有关更多详细信息,请参阅[`aclweb.org/aclwiki/Recognizing_Textual_Entailment`](https://aclweb.org/aclwiki/Recognizing_Textual_Entailment)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497

每个拆分的行数:

+   train:2490

+   dev:277

+   test:3000

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,dev,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
498
DataPipe,产生文本和/或标签(0 和 1)的元组。测试拆分仅返回文本。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
499 500 501

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
502
Union[([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")),([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))]
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
503

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
504
### SogouNews
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
505 506

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
507
torchtext.datasets.SogouNews(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
508 509
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
510
SogouNews 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
511 512 513

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
514
使用 datapipes 目前仍然受到一些注意事项的限制。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
515

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
516
有关更多详细信息,请参阅[`arxiv.org/abs/1509.01626`](https://arxiv.org/abs/1509.01626)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
517 518 519 520 521 522 523 524 525 526 527 528 529

> 每个拆分的行数:
> 
> +   train:450000
> +   
> +   test:60000
> +   
> 参数:
> 
> root:数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')split:要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,test)
> 
> 返回:
> 
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
530
> DataPipe,产生标签(1 到 5)和包含新闻标题和内容的文本的元组
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
531 532 533 534 535
> 
> rtype:
> 
> (int,str)

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
536
### SST2
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
537 538

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
539
torchtext.datasets.SST2(root='.data', split=('train', 'dev', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
540 541
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
542
SST2 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
543 544 545

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
546
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多处理或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
547

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
548
有关更多详细信息,请参阅[`nlp.stanford.edu/sentiment/`](https://nlp.stanford.edu/sentiment/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565

每个拆分的行数:

+   训练:67349

+   开发:872

+   测试:1821

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(训练、开发、测试)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
566
DataPipe 会产生文本和/或标签(1 到 4)的元组。测试拆分仅返回文本。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
567 568 569

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
570
Union[([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")), ([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"),)]
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
571 572 573

使用`SST2`的教程:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
574
![SST-2 二进制文本分类与 XLM-RoBERTa 模型](img/98241cb68ab73fa3d56bc87944e16fd8.png)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
575

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
576
SST-2 二进制文本分类与 XLM-RoBERTa 模型
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
577

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
578
SST-2 二进制文本分类与 XLM-RoBERTa 模型
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
579

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
580
### STSB
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
581 582

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
583
torchtext.datasets.STSB(root='.data', split=('train', 'dev', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
584 585
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
586
STSB 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
587 588 589

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
590
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多处理或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
591

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
592
有关更多详细信息,请参阅[`ixa2.si.ehu.eus/stswiki/index.php/STSbenchmark`](https://ixa2.si.ehu.eus/stswiki/index.php/STSbenchmark)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609

每个拆分的行数:

+   训练:5749

+   开发:1500

+   测试:1379

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(训练、开发、测试)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
610
DataPipe 会产生元组(索引(整数)、标签(浮点数)、句子 1(字符串)、句子 2(字符串))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
611 612 613

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
614
([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [float](https://docs.python.org/3/library/functions.html#float "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
615

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
616
### WNLI
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
617 618

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
619
torchtext.datasets.WNLI(root='.data', split=('train', 'dev', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
620 621
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
622
WNLI 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
623

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
624
有关更多详细信息,请参阅[`arxiv.org/pdf/1804.07461v3.pdf`](https://arxiv.org/pdf/1804.07461v3.pdf)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641

每个拆分的行数:

+   训练:635

+   开发:71

+   测试:146

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(训练、开发、测试)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
642
DataPipe 会产生文本和/或标签(0 到 1)的元组。测试拆分仅返回文本。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
643 644 645

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
646
Union[([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")), ([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))]
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
647

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
648
### YahooAnswers
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
649 650

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
651
torchtext.datasets.YahooAnswers(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
652 653
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
654
YahooAnswers 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
655 656 657

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
658
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多处理或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
659

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
660
有关更多详细信息,请参阅[`arxiv.org/abs/1509.01626`](https://arxiv.org/abs/1509.01626)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679

每个拆分的行数:

+   训练:1400000

+   测试:60000

参数:

+   **root** – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)

+   **split** – 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train, test)

返回:

DataPipe,产生包含问题标题、问题内容和最佳答案的文本的元组

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
680
([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
681

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
682
### YelpReviewFull
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
683 684

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
685
torchtext.datasets.YelpReviewFull(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
686 687
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
688
YelpReviewFull 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
689 690 691

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
692
使用 datapipes 目前仍然存在一些注意事项。如果您希望使用此数据集进行洗牌、多进程处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
693

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
694
有关更多详细信息,请参考[`arxiv.org/abs/1509.01626`](https://arxiv.org/abs/1509.01626)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
695 696 697 698 699 700 701 702 703 704 705 706 707 708 709

每个拆分的行数:

+   训练:650000

+   测试:50000

参数:

+   **root** – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)

+   **split** – 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train, test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
710
DataPipe,产生包含评论标签(1 到 5)和文本的元组
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
711 712 713

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
714
([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
715

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
716
### YelpReviewPolarity
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
717 718

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
719
torchtext.datasets.YelpReviewPolarity(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
720 721
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
722
YelpReviewPolarity 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
723 724 725

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
726
使用 datapipes 目前仍然存在一些注意事项。如果您希望使用此数据集进行洗牌、多进程处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
727

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
728
有关更多详细信息,请参考[`arxiv.org/abs/1509.01626`](https://arxiv.org/abs/1509.01626)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
729 730 731 732 733 734 735 736 737 738 739 740 741 742 743

每个拆分的行数:

+   训练:560000

+   测试:38000

参数:

+   **root** – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)

+   **split** – 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train, test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
744
DataPipe,产生包含评论标签(1 到 2)和文本的元组
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
745 746 747

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
748
([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
749

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
750
## 语言建模
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
751

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
752
### PennTreebank
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
753 754

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
755
torchtext.datasets.PennTreebank(root='.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
756 757
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
758
PennTreebank 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
759 760 761

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
762
使用 datapipes 目前仍然存在一些注意事项。如果您希望使用此数据集进行洗牌、多进程处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
763

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
764
有关更多详细信息,请参考[`catalog.ldc.upenn.edu/docs/LDC95T7/cl93.html`](https://catalog.ldc.upenn.edu/docs/LDC95T7/cl93.html)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781

每个拆分的行数:

+   训练:42068

+   验证:3370

+   测试:3761

参数:

+   **root** – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)

+   **split** – 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train, valid, test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
782
DataPipe,产生来自 Treebank 语料库的文本
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
783 784 785

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
786
[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
787

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
788
### WikiText-2
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
789 790

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
791
torchtext.datasets.WikiText2(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
792 793
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
794
WikiText2 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
795 796 797

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
798
使用 datapipes 目前仍然存在一些注意事项。如果您希望使用此数据集进行洗牌、多进程处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
799

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
800
有关更多详细信息,请参考[`blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/`](https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817

每个拆分的行数:

+   训练:36718

+   有效:3760

+   测试:4358

参数:

+   **root** – 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** – 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,valid,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
818
从维基百科文章中产生文本的 DataPipe
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
819 820 821

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
822
[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
823

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
824
### WikiText103
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
825 826

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
827
torchtext.datasets.WikiText103(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
828 829
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
830
WikiText103 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
831 832 833

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
834
使用 datapipes 目前仍然受到一些注意事项的限制。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
835

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
836
有关更多详细信息,请参阅[`blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/`](https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853

每个拆分的行数:

+   训练:1801350

+   有效:3760

+   测试:4358

参数:

+   **root** – 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** – 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,valid,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
854
从维基百科文章中产生文本的 DataPipe
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
855 856 857

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
858
[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
859

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
860
## 机器翻译
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
861

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
862
### IWSLT2016
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
863 864

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
865
torchtext.datasets.IWSLT2016(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
866 867
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
868
IWSLT2016 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
869 870 871

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
872
使用 datapipes 目前仍然受到一些注意事项的限制。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
873

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
874
有关更多详细信息,请参阅[`wit3.fbk.eu/2016-01`](https://wit3.fbk.eu/2016-01)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
875 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895

可用的数据集包括以下内容:

**语言对**

|  | “en” | “fr” | “de” | “cs” | “ar” |
| --- | --- | --- | --- | --- | --- |
| “en” |  | x | x | x | x |
| “fr” | x |  |  |  |  |
| “de” | x |  |  |  |  |
| “cs” | x |  |  |  |  |
| “ar” | x |  |  |  |  |

**验证/测试集**:[“dev2010”,“tst2010”,“tst2011”,“tst2012”,“tst2013”,“tst2014”]

参数:

+   **root** – 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** – 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:('train','valid','test')

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
896
+   **language_pair** – 包含 src 和 tgt 语言的元组或列表
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
897 898 899 900 901 902 903

+   **valid_set** – 用于识别验证集的字符串。

+   **test_set** – 用于识别测试集的字符串。

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
904
从维基百科文章中产生源句子和目标句子的元组的 DataPipe
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
905 906 907

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
908
([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
909 910 911 912 913 914 915 916 917

示例

```py
>>> from torchtext.datasets import IWSLT2016
>>> train_iter, valid_iter, test_iter = IWSLT2016()
>>> src_sentence, tgt_sentence = next(iter(train_iter)) 
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
918
### IWSLT2017
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
919 920

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
921
torchtext.datasets.IWSLT2017(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
922 923
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
924
IWSLT2017 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
925 926 927

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
928
使用 datapipes 目前仍然受到一些注意事项的限制。如果您希望使用此数据集进行洗牌、多处理或分布式学习,请参阅此说明。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
929

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
930
有关更多详细信息,请参阅[`wit3.fbk.eu/2017-01`](https://wit3.fbk.eu/2017-01)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949

可用的数据集包括以下内容:

**语言对**

|  | “en” | “nl” | “de” | “it” | “ro” |
| --- | --- | --- | --- | --- | --- |
| “en” |  | x | x | x | x |
| “nl” | x |  | x | x | x |
| “de” | x | x |  | x | x |
| “it” | x | x | x |  | x |
| “ro” | x | x | x | x |  |

参数:

+   **root** – 数据集保存的目录。默认值:os.path.expanduser('〜/.torchtext/cache')

+   **split** – 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:('train','valid','test')

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
950
+   **language_pair** – 包含 src 和 tgt 语言的元组或列表
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
951 952 953

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
954
从维基百科文章中产生源句子和目标句子的元组的 DataPipe
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
955 956 957

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
958
([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
959 960 961 962 963 964 965 966 967

示例

```py
>>> from torchtext.datasets import IWSLT2017
>>> train_iter, valid_iter, test_iter = IWSLT2017()
>>> src_sentence, tgt_sentence = next(iter(train_iter)) 
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
968
### Multi30k
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
969 970

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
971
torchtext.datasets.Multi30k(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test'), language_pair: Tuple[str] = ('de', 'en'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
972 973
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
974
Multi30k 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
975 976 977

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
978
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多处理或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
979

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
980
有关更多详细信息,请参阅[`www.statmt.org/wmt16/multimodal-task.html#task1`](https://www.statmt.org/wmt16/multimodal-task.html#task1)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
981 982 983 984 985 986 987 988 989 990 991 992 993 994 995 996 997 998 999

每个拆分的行数:

+   训练:29000

+   验证:1014

+   测试:1000

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:('train','valid','test')

+   **language_pair** - 包含源语言和目标语言的元组或列表。可用选项为('de','en')和('en','de')

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1000
产生源句子和目标句子的元组的 DataPipe
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1001 1002 1003

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1004
([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1005 1006 1007

使用`Multi30k`的教程:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1008
![T5-基础模型用于摘要、情感分类和翻译](img/054ec2c5b6c69ac648ddd68d0b5494e6.png)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1009

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1010
T5-基础模型用于摘要、情感分类和翻译
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1011 1012 1013

T5-基础模型用于摘要、情感分类和翻译

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1014
## 序列标注
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1015

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1016
### CoNLL2000Chunking
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1017 1018

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1019
torchtext.datasets.CoNLL2000Chunking(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1020 1021
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1022
CoNLL2000Chunking 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1023 1024 1025

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1026
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多处理或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1027

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1028
有关更多详细信息,请参阅[`www.clips.uantwerpen.be/conll2000/chunking/`](https://www.clips.uantwerpen.be/conll2000/chunking/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 1040 1041 1042 1043

每个拆分的行数:

+   训练:8936

+   测试:2012

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1044
产生单词列表以及相应词性标签和块标签的 DataPipe
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1045 1046 1047

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1048
[[list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")), [list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")), [list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))]
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1049

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1050
### UDPOS
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1051 1052

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1053
torchtext.datasets.UDPOS(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1054 1055
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1056
UDPOS 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1057 1058 1059

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1060
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多处理或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1061 1062 1063 1064 1065 1066 1067 1068 1069 1070 1071 1072 1073 1074 1075 1076 1077

每个拆分的行数:

+   训练:12543

+   验证:2002

+   测试:2077

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,valid,test)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1078
产生单词列表以及相应词性标签的 DataPipe
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1079 1080 1081

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1082
[[list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")), [list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))]
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1083

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1084
## 问题回答
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1085

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1086
### SQuAD 1.0
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1087 1088

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1089
torchtext.datasets.SQuAD1(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'dev'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1090 1091
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1092
SQuAD1 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1093 1094 1095

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1096
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多进程或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1097

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1098
有关更多详细信息,请参阅[`rajpurkar.github.io/SQuAD-explorer/`](https://rajpurkar.github.io/SQuAD-explorer/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1099 1100 1101 1102 1103 1104 1105 1106 1107 1108 1109 1110 1111 1112 1113

每个拆分的行数:

+   train: 87599

+   dev: 10570

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,dev)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1114
DataPipe,产生 SQuaAD1 数据集中的数据点,包括上下文、问题、答案列表和上下文中对应的索引
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1115 1116 1117

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1118
([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")), [list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)")))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1119

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1120
### SQuAD 2.0
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1121 1122

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1123
torchtext.datasets.SQuAD2(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'dev'))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1124 1125
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1126
SQuAD2 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1127 1128 1129

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1130
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多进程或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1131

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1132
有关更多详细信息,请参阅[`rajpurkar.github.io/SQuAD-explorer/`](https://rajpurkar.github.io/SQuAD-explorer/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1133 1134 1135 1136 1137 1138 1139 1140 1141 1142 1143 1144 1145 1146 1147

每个拆分的行数:

+   train: 130319

+   dev: 11873

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **split** - 要返回的拆分或拆分。可以是字符串或字符串元组。默认值:(train,dev)

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1148
DataPipe,产生 SQuaAD1 数据集中的数据点,包括上下文、问题、答案列表和上下文中对应的索引
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1149 1150 1151

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1152
([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")), [list](https://docs.python.org/3/library/stdtypes.html#list "(在 Python v3.12 中)")([int](https://docs.python.org/3/library/functions.html#int "(在 Python v3.12 中)")))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1153

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1154
## 无监督学习
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1155

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1156
### CC100
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1157 1158

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1159
torchtext.datasets.CC100(root: str, language_code: str = 'en')
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1160 1161
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1162
CC100 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1163 1164 1165

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1166
使用 datapipes 目前仍然存在一些注意事项。如果您希望在此数据集中使用洗牌、多进程或分布式学习,请参阅此说明以获取进一步的指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1167

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1168
有关更多详细信息,请参阅[`data.statmt.org/cc-100/`](https://data.statmt.org/cc-100/)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1169 1170 1171 1172 1173 1174 1175 1176 1177 1178 1179 1180 1181

参数:

+   **root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

+   **language_code** - 数据集的语言

返回:

DataPipe,产生语言代码和文本的元组

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1182
([str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"), [str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)"))
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1183

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1184
### EnWik9
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1185 1186

```py
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1187
torchtext.datasets.EnWik9(root: str)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1188 1189
```

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1190
EnWik9 数据集
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1191 1192 1193

警告

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1194
目前仍然存在一些注意事项,如果您希望使用此数据集进行洗牌、多进程处理或分布式学习,请参阅此说明获取进一步指导。
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1195

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1196
有关更多详细信息,请参阅[`mattmahoney.net/dc/textdata.html`](http://mattmahoney.net/dc/textdata.html)
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1197 1198 1199 1200 1201 1202 1203 1204 1205

数据集中的行数:13147026

参数:

**root** - 数据集保存的目录。默认值:os.path.expanduser('~/.torchtext/cache')

返回:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1206
从 WnWik9 数据集中产生原始文本行的 DataPipe
绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1207 1208 1209

返回类型:

绝不原创的飞龙's avatar
绝不原创的飞龙 已提交
1210
[str](https://docs.python.org/3/library/stdtypes.html#str "(在 Python v3.12 中)")