From db945913fcfcb2091b8c0657131a1bd495b8a046 Mon Sep 17 00:00:00 2001 From: Hao Wang <31058429+haowang101779990@users.noreply.github.com> Date: Tue, 12 Mar 2019 14:38:51 +0800 Subject: [PATCH] fix data_reader_cn and dataset_cn (#685) * fix textual content * fix issue #682 3 3.2 * fix issues in conv --- doc/fluid/api_cn/data/data_reader_cn.rst | 74 ++++++++++++------------ doc/fluid/api_cn/data/dataset_cn.rst | 2 +- 2 files changed, 38 insertions(+), 38 deletions(-) diff --git a/doc/fluid/api_cn/data/data_reader_cn.rst b/doc/fluid/api_cn/data/data_reader_cn.rst index 98414582c..b9ba3c60b 100644 --- a/doc/fluid/api_cn/data/data_reader_cn.rst +++ b/doc/fluid/api_cn/data/data_reader_cn.rst @@ -11,7 +11,7 @@ DataFeeder .. py:class:: paddle.fluid.data_feeder.DataFeeder(feed_list, place, program=None) -DataFeeder将读卡器返回的数据转换为可以输入Executor和ParallelExecutor的数据结构。读卡器通常返回一个小批量数据条目列表。列表中的每个数据条目都是一个样本。每个样本都是具有一个或多个特征的列表或元组。 +DataFeeder将reader返回的数据转换为可以输入Executor和ParallelExecutor的数据结构。reader通常返回一个小批量数据条目列表。列表中的每个数据条目都是一个样本。每个样本都是具有一个或多个特征的列表或元组。 简单用法如下: @@ -42,7 +42,7 @@ DataFeeder将读卡器返回的数据转换为可以输入Executor和ParallelExe 参数: - **feed_list** (list) – 将输入模型的变量或变量的名称。 - **place** (Place) – place表示将数据输入CPU或GPU,如果要将数据输入GPU,请使用fluid.CUDAPlace(i)(i表示GPU的ID),如果要将数据输入CPU,请使用fluid.CPUPlace()。 - - **program** (Program) –将数据输入的Program,如果Program为None,它将使用default_main_program() 。默认值None. + - **program** (Program) –将数据输入的Program,如果Program为None,它将使用default_main_program() 。默认值None。 抛出异常: ``ValueError`` – 如果某些变量未在Program中出现 @@ -81,7 +81,7 @@ DataFeeder将读卡器返回的数据转换为可以输入Executor和ParallelExe 需要多个mini-batches。每个mini-batch都将提前在每个设备上输入。 参数: - - **iterable** (list|tuple) – 输入的数据 + - **iterable** (list|tuple) – 输入的数据。 - **num_places** (int) – 设备编号,默认值为None。 返回: 转换结果 @@ -96,19 +96,19 @@ DataFeeder将读卡器返回的数据转换为可以输入Executor和ParallelExe .. py:method:: decorate_reader(reader, multi_devices, num_places=None, drop_last=True) -将输入数据转换成读卡器返回的多个mini-batches。每个mini-batch +将输入数据转换成reader返回的多个mini-batches。每个mini-batch分别送入各设备中。 参数: - - **reader** (function) – reader是可以生成数据的函数 - - **multi_devices** (bool) – 是否用多个设备 + - **reader** (function) – reader是可以生成数据的函数。 + - **multi_devices** (bool) – 是否用多个设备。 - **num_places** (int) – 如果multi_devices是True, 你可以指定GPU的使用数量, 如果multi_devices是None, 会使用当前机器的所有GPU ,默认值None。 - - **drop_last** (bool) – 如果最后一个batch的大小小于batch_size,是否删除最后一个batch,默认值True。 + - **drop_last** (bool) – 如果最后一个batch的大小小于batch_size,选择是否删除最后一个batch,默认值True。 返回: 转换结果 返回类型: dict -引起异常: ValueError – 如果drop_last为False并且数据批不适合设备。 +抛出异常: ``ValueError`` – 如果drop_last为False并且数据batch和设备数目不匹配。 .. _cn_api_paddle_data_reader_reader: @@ -120,14 +120,14 @@ Reader - reader是一个读取数据(从文件、网络、随机数生成器等)并生成数据项的函数。 - reader creator是返回reader函数的函数。 - - reader decorator是一个函数,它接受一个或多个读卡器,并返回一个读卡器。 - - batch reader是一个函数,它读取数据(从读卡器、文件、网络、随机数生成器等)并生成一批数据项。 + - reader decorator是一个函数,它接受一个或多个reader,并返回一个reader。 + - batch reader是一个函数,它读取数据(从reader、文件、网络、随机数生成器等)并生成一批数据项。 Data Reader Interface ------------------------------------ -的确,数据阅读器不必是读取和生成数据项的函数,它可以是任何不带参数的函数来创建一个iterable(任何东西都可以被用于 ``for x in iterable`` ): +的确,data reader不必是读取和生成数据项的函数,它可以是任何不带参数的函数来创建一个iterable(任何东西都可以被用于 ``for x in iterable`` ): .. code-block:: python @@ -163,7 +163,7 @@ Data Reader Interface 参数: - **func** - 使用的函数. 函数类型应为(Sample) => Sample - - **readers** - 其输出将用作func参数的读卡器。 + - **readers** - 其输出将用作func参数的reader。 类型:callable @@ -176,7 +176,7 @@ Data Reader Interface 创建缓冲数据读取器。 -缓冲数据读卡器将读取数据条目并将其保存到缓冲区中。只要缓冲区不为空,就将继续从缓冲数据读取器读取数据。 +缓冲数据reader将读取数据条目并将其保存到缓冲区中。只要缓冲区不为空,就将继续从缓冲数据读取器读取数据。 参数: - **reader** (callable) - 要读取的数据读取器 @@ -188,28 +188,28 @@ Data Reader Interface .. py:function:: paddle.reader.compose(*readers, **kwargs) -创建一个数据读卡器,其输出是输入读卡器的组合。 +创建一个数据reader,其输出是输入reader的组合。 -如果输入读卡器输出以下数据项:(1,2)3(4,5),则组合读卡器将输出:(1,2,3,4,5) +如果输入reader输出以下数据项:(1,2)3(4,5),则组合reader将输出:(1,2,3,4,5)。 参数: - - **readers** - 将被组合的多个读取器 - - **check_alignment** (bool) - 如果为True,将检查输入读卡器是否正确对齐。如果为False,将不检查对齐,将丢弃跟踪输出。默认值True。 + - **readers** - 将被组合的多个读取器。 + - **check_alignment** (bool) - 如果为True,将检查输入reader是否正确对齐。如果为False,将不检查对齐,将丢弃跟踪输出。默认值True。 返回:新的数据读取器 -引起异常: ``ComposeNotAligned`` – 读卡器的输出不一致。 当check_alignment设置为False,不会升高。 +抛出异常: ``ComposeNotAligned`` – reader的输出不一致。 当check_alignment设置为False,不会升高。 .. py:function:: paddle.reader.chain(*readers) -创建一个数据读卡器,其输出是链接在一起的输入数据读卡器的输出。 +创建一个数据reader,其输出是链接在一起的输入数据reader的输出。 -如果输入读卡器输出以下数据条目:[0,0,0][1,1,1][2,2,2],链接读卡器将输出:[0,0,0,1,1,1,2,2,2] +如果输入reader输出以下数据条目:[0,0,0][1,1,1][2,2,2],链接reader将输出:[0,0,0,1,1,1,2,2,2] 。 参数: - - **readers** – 输入的数据 + - **readers** – 输入的数据。 返回: 新的数据读取器 @@ -218,15 +218,15 @@ Data Reader Interface .. py:function:: paddle.reader.shuffle(reader, buf_size) -创建数据读取器,该阅读器的数据输出将被无序排列。 +创建数据读取器,该reader的数据输出将被无序排列。 -由原始读卡器创建的迭代器的输出将被缓冲到shuffle缓冲区,然后进行打乱。打乱缓冲区的大小由参数buf_size决定。 +由原始reader创建的迭代器的输出将被缓冲到shuffle缓冲区,然后进行打乱。打乱缓冲区的大小由参数buf_size决定。 参数: - - **reader** (callable) – 输出会被打乱的原始读卡器 + - **reader** (callable) – 输出会被打乱的原始reader - **buf_size** (int) – 打乱缓冲器的大小 -返回: 输出会被打乱的读卡器 +返回: 输出会被打乱的reader 返回类型: callable @@ -234,13 +234,13 @@ Data Reader Interface .. py:function:: paddle.reader.firstn(reader, n) -限制读卡器可以返回的最大样本数。 +限制reader可以返回的最大样本数。 参数: - - **reader** (callable) – 要读取的数据读取器 - - **n** (int) – 返回的最大样本数 + - **reader** (callable) – 要读取的数据读取器。 + - **n** (int) – 返回的最大样本数 。 -返回: 装饰读卡器 +返回: 装饰reader 返回类型: callable @@ -294,11 +294,11 @@ rtype: string .. py:function:: paddle.reader.multiprocess_reader(readers, use_pipe=True, queue_size=1000) -多进程读卡器使用python多进程从读卡器中读取数据,然后使用multi process.queue或multi process.pipe合并所有数据。进程号等于输入读卡器的编号,每个进程调用一个读卡器。 +多进程reader使用python多进程从reader中读取数据,然后使用multi process.queue或multi process.pipe合并所有数据。进程号等于输入reader的编号,每个进程调用一个reader。 multiprocess.queue需要/dev/shm的rw访问权限,某些平台不支持。 -您需要首先创建多个读卡器,这些读卡器应该相互独立,这样每个进程都可以独立工作。 +您需要首先创建多个reader,这些reader应该相互独立,这样每个进程都可以独立工作。 **代码示例** @@ -314,11 +314,11 @@ multiprocess.queue需要/dev/shm的rw访问权限,某些平台不支持。 .. py:class::paddle.reader.Fake -Fake读卡器将缓存它读取的第一个数据,并将其输出data_num次。它用于缓存来自真实阅读器的数据,并将其用于速度测试。 +Fakereader将缓存它读取的第一个数据,并将其输出data_num次。它用于缓存来自真实reader的数据,并将其用于速度测试。 参数: - - **reader** – 原始读取器 - - **data_num** – 读卡器产生数据的次数 + - **reader** – 原始读取器。 + - **data_num** – reader产生数据的次数 。 返回: 一个Fake读取器 @@ -343,7 +343,7 @@ Creator包包含一些简单的reader creator,可以在用户Program中使用 如果是numpy向量,则创建一个生成x个元素的读取器。或者,如果它是一个numpy矩阵,创建一个生成x行元素的读取器。或由最高维度索引的任何子超平面。 参数: - - **x** – 用于创建读卡器的numpy数组 + - **x** – 用于创建reader的numpy数组。 返回: 从x创建的数据读取器 @@ -359,8 +359,8 @@ Creator包包含一些简单的reader creator,可以在用户Program中使用 .. py:function:: paddle.reader.creator.recordio(paths, buf_size=100) -从给定的recordio文件路径创建数据读卡器,用“,”分隔“,支持全局模式。 +从给定的recordio文件路径创建数据reader,用“,”分隔“,支持全局模式。 路径:recordio文件的路径,可以是字符串或字符串列表。 -返回: recordio文件的数据读取器 \ No newline at end of file +返回: recordio文件的数据读取器 diff --git a/doc/fluid/api_cn/data/dataset_cn.rst b/doc/fluid/api_cn/data/dataset_cn.rst index 2ca58b5e6..aee1d2e5d 100644 --- a/doc/fluid/api_cn/data/dataset_cn.rst +++ b/doc/fluid/api_cn/data/dataset_cn.rst @@ -153,7 +153,7 @@ imdb IMDB数据集。 -本模块的数据集从 http://ai.stanford.edu/%7Eamaas/data/sentiment/IMDB 数据集。这个数据集包含了一组25000个用于训练的极性电影评论数据和25000个用于测试的评论数据。此外,该模块还提供了用于构建词典的API。 +本模块的数据集从 http://ai.stanford.edu/%7Eamaas/data/sentiment/IMDB 数据集。这个数据集包含了25000条训练用电影评论数据,25000条测试用评论数据,且这些评论带有明显情感倾向。此外,该模块还提供了用于构建词典的API。 .. py:function:: paddle.dataset.imdb.build_dict(pattern, cutoff) -- GitLab