diff --git a/doc/paddle/api/paddle/distributed/InMemoryDataset_cn.rst b/doc/paddle/api/paddle/distributed/InMemoryDataset_cn.rst index d30d828a2204a432eae73475db6d4d83ecb9acd7..4f79e3a6771041d71dd2b2b7ef438d532021f34c 100644 --- a/doc/paddle/api/paddle/distributed/InMemoryDataset_cn.rst +++ b/doc/paddle/api/paddle/distributed/InMemoryDataset_cn.rst @@ -27,15 +27,15 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 对InMemoryDataset的实例进行配置初始化。 参数: - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 - batch_size(int): batch size的大小. 默认值为1。 - thread_num(int): 用于训练的线程数, 默认值为1。 - use_var(list): 用于输入的variable列表,默认值为[]。 - input_type(int): 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 - fs_name(str): hdfs名称. 默认值为""。 - fs_ugi(str): hdfs的ugi. 默认值为""。 - pipe_command(str): 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 - download_cmd(str): 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 + - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 + - **batch_size** (int) - batch size的大小. 默认值为1。 + - **thread_num** (int) - 用于训练的线程数, 默认值为1。 + - **use_var** (list) - 用于输入的variable列表,默认值为[]。 + - **input_type** (int) - 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 + - **fs_name** (str) - hdfs名称. 默认值为""。 + - **fs_ugi** (str) - hdfs的ugi. 默认值为""。 + - **pipe_command** (str) - 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 + - **download_cmd** (str) - 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 返回:None。 @@ -103,14 +103,14 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 对InMemoryDataset的实例进行分布式训俩相关配置的初始化。 参数: - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 - merge_size(int): - 通过样本id来设置合并,相同id的样本将会在shuffle之后进行合并,你应该在一个data生成器里面解析样本id。merge_size表示合并的最小数量,默认值为-1,表示不做合并。 - parse_ins_id(bool): - 是否需要解析每条样的id,默认值为False。 - parse_content(bool): 是否需要解析每条样本的content, 默认值为False。 - fleet_send_batch_size(int): 设置发送batch的大小,默认值为1024。 - fleet_send_sleep_seconds(int): 设置发送batch后的睡眠时间,默认值为0。 - fea_eval(bool): 设置特征打乱特征验证模式,来修正特征级别的重要性, 特征打乱需要 ``fea_eval`` 被设置为True. 默认值为False。 - candidate_size(int): 特征打乱特征验证模式下,用于随机化特征的候选池大小. 默认值为10000。 + - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 + - **merge_size** (int) - 通过样本id来设置合并,相同id的样本将会在shuffle之后进行合并,你应该在一个data生成器里面解析样本id。merge_size表示合并的最小数量,默认值为-1,表示不做合并。 + - **parse_ins_id** (bool) - 是否需要解析每条样的id,默认值为False。 + - **parse_content** (bool) - 是否需要解析每条样本的content, 默认值为False。 + - **fleet_send_batch_size** (int) - 设置发送batch的大小,默认值为1024。 + - **fleet_send_sleep_seconds** (int) - 设置发送batch后的睡眠时间,默认值为0。 + - **fea_eval** (bool) - 设置特征打乱特征验证模式,来修正特征级别的重要性, 特征打乱需要 ``fea_eval`` 被设置为True. 默认值为False。 + - **candidate_size** (int) - 特征打乱特征验证模式下,用于随机化特征的候选池大小. 默认值为10000。 返回:None。 @@ -143,22 +143,22 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 对InMemoryDataset的实例通过init和_init_distributed_settings初始化的配置进行更新。 参数: - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 - batch_size(int): batch size的大小. 默认值为1。 - thread_num(int): 用于训练的线程数, 默认值为1。 - use_var(list): 用于输入的variable列表,默认值为[]。 - input_type(int): 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 - fs_name(str): hdfs名称. 默认值为""。 - fs_ugi(str): hdfs的ugi. 默认值为""。 - pipe_command(str): 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 - download_cmd(str): 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 - merge_size(int): - 通过样本id来设置合并,相同id的样本将会在shuffle之后进行合并,你应该在一个data生成器里面解析样本id。merge_size表示合并的最小数量,默认值为-1,表示不做合并。 - parse_ins_id(bool): - 是否需要解析每条样的id,默认值为False。 - parse_content(bool): 是否需要解析每条样本的content, 默认值为False。 - fleet_send_batch_size(int): 设置发送batch的大小,默认值为1024。 - fleet_send_sleep_seconds(int): 设置发送batch后的睡眠时间,默认值为0。 - fea_eval(bool): 设置特征打乱特征验证模式,来修正特征级别的重要性, 特征打乱需要 ``fea_eval`` 被设置为True. 默认值为False。 - candidate_size(int): 特征打乱特征验证模式下,用于随机化特征的候选池大小. 默认值为10000。 + - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 + - **batch_size** (int) - batch size的大小. 默认值为1。 + - **thread_num** (int) - 用于训练的线程数, 默认值为1。 + - **use_var** (list) - 用于输入的variable列表,默认值为[]。 + - **input_type** (int) - 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 + - **fs_name** (str) - hdfs名称. 默认值为""。 + - **fs_ugi** (str) - hdfs的ugi. 默认值为""。 + - **pipe_command** (str) - 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 + - **download_cmd** (str) - 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 + - **merge_size** (int) - 通过样本id来设置合并,相同id的样本将会在shuffle之后进行合并,你应该在一个data生成器里面解析样本id。merge_size表示合并的最小数量,默认值为-1,表示不做合并。 + - **parse_ins_id** (bool) - 是否需要解析每条样的id,默认值为False。 + - **parse_content** (bool) 是否需要解析每条样本的content, 默认值为False。 + - **fleet_send_batch_size** (int) - 设置发送batch的大小,默认值为1024。 + - **fleet_send_sleep_seconds** (int) - 设置发送batch后的睡眠时间,默认值为0。 + - **fea_eval** (bool) - 设置特征打乱特征验证模式,来修正特征级别的重要性, 特征打乱需要 ``fea_eval`` 被设置为True. 默认值为False。 + - **candidate_size** (int) - 特征打乱特征验证模式下,用于随机化特征的候选池大小. 默认值为10000。 返回:None。 @@ -225,7 +225,7 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 参数: - - **filelist** (list) - 文件列表 + - **filelist** (list[string]) - 文件列表 .. py:method:: load_into_memory() @@ -257,12 +257,12 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 dataset.set_filelist(filelist) dataset.load_into_memory() -.. py:method:: preload_into_memory() +.. py:method:: preload_into_memory(thread_num=None) 向内存中以异步模式加载数据。 参数: - thread_num(int) - 异步加载数据时的线程数。 + - **thread_num** (int) - 异步加载数据时的线程数。 **代码示例**: diff --git a/doc/paddle/api/paddle/distributed/QueueDataset_cn.rst b/doc/paddle/api/paddle/distributed/QueueDataset_cn.rst index 2e88da7d217790a32fa0d6b95b263aad8892ca63..461a8ceda3343bf727cc360bf916e297be2cc609 100644 --- a/doc/paddle/api/paddle/distributed/QueueDataset_cn.rst +++ b/doc/paddle/api/paddle/distributed/QueueDataset_cn.rst @@ -27,15 +27,15 @@ QueueyDataset是流式处理数据使用Dataset类。与InmemoryDataset继承自 对QueueDataset的实例进行配置初始化。 参数: - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 - batch_size(int): batch size的大小. 默认值为1。 - thread_num(int): 用于训练的线程数, 默认值为1。 - use_var(list): 用于输入的variable列表,默认值为[]。 - input_type(int): 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 - fs_name(str): hdfs名称. 默认值为""。 - fs_ugi(str): hdfs的ugi. 默认值为""。 - pipe_command(str): 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 - download_cmd(str): 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 + - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 + - **batch_size** (int) - batch size的大小. 默认值为1。 + - **thread_num** (int) - 用于训练的线程数, 默认值为1。 + - **use_var** (list) - 用于输入的variable列表,默认值为[]。 + - **input_type** (int) - 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 + - **fs_name** (str) - hdfs名称. 默认值为""。 + - **fs_ugi** (str) - hdfs的ugi. 默认值为""。 + - **pipe_command** (str) - 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 + - **download_cmd** (str) - 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 返回:None。 @@ -135,4 +135,4 @@ QueueyDataset是流式处理数据使用Dataset类。与InmemoryDataset继承自 参数: - - **filelist** (list) - 文件列表 + - **filelist** (list[string]) - 文件列表