提交 7403c6d9 编写于 作者: Y yaoxuefeng

fix

上级 5a1893ce
...@@ -27,15 +27,15 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 ...@@ -27,15 +27,15 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据
对InMemoryDataset的实例进行配置初始化。 对InMemoryDataset的实例进行配置初始化。
参数: 参数:
**kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。
batch_size(int): batch size的大小. 默认值为1。 - **batch_size** (int) - batch size的大小. 默认值为1。
thread_num(int): 用于训练的线程数, 默认值为1。 - **thread_num** (int) - 用于训练的线程数, 默认值为1。
use_var(list): 用于输入的variable列表,默认值为[]。 - **use_var** (list) - 用于输入的variable列表,默认值为[]。
input_type(int): 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 - **input_type** (int) - 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。
fs_name(str): hdfs名称. 默认值为""。 - **fs_name** (str) - hdfs名称. 默认值为""。
fs_ugi(str): hdfs的ugi. 默认值为""。 - **fs_ugi** (str) - hdfs的ugi. 默认值为""。
pipe_command(str): 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 - **pipe_command** (str) - 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。
download_cmd(str): 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 - **download_cmd** (str) - 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。
返回:None。 返回:None。
...@@ -103,14 +103,14 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 ...@@ -103,14 +103,14 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据
对InMemoryDataset的实例进行分布式训俩相关配置的初始化。 对InMemoryDataset的实例进行分布式训俩相关配置的初始化。
参数: 参数:
**kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。
merge_size(int): - 通过样本id来设置合并,相同id的样本将会在shuffle之后进行合并,你应该在一个data生成器里面解析样本id。merge_size表示合并的最小数量,默认值为-1,表示不做合并。 - **merge_size** (int) - 通过样本id来设置合并,相同id的样本将会在shuffle之后进行合并,你应该在一个data生成器里面解析样本id。merge_size表示合并的最小数量,默认值为-1,表示不做合并。
parse_ins_id(bool): - 是否需要解析每条样的id,默认值为False。 - **parse_ins_id** (bool) - 是否需要解析每条样的id,默认值为False。
parse_content(bool): 是否需要解析每条样本的content, 默认值为False。 - **parse_content** (bool) - 是否需要解析每条样本的content, 默认值为False。
fleet_send_batch_size(int): 设置发送batch的大小,默认值为1024。 - **fleet_send_batch_size** (int) - 设置发送batch的大小,默认值为1024。
fleet_send_sleep_seconds(int): 设置发送batch后的睡眠时间,默认值为0。 - **fleet_send_sleep_seconds** (int) - 设置发送batch后的睡眠时间,默认值为0。
fea_eval(bool): 设置特征打乱特征验证模式,来修正特征级别的重要性, 特征打乱需要 ``fea_eval`` 被设置为True. 默认值为False。 - **fea_eval** (bool) - 设置特征打乱特征验证模式,来修正特征级别的重要性, 特征打乱需要 ``fea_eval`` 被设置为True. 默认值为False。
candidate_size(int): 特征打乱特征验证模式下,用于随机化特征的候选池大小. 默认值为10000。 - **candidate_size** (int) - 特征打乱特征验证模式下,用于随机化特征的候选池大小. 默认值为10000。
返回:None。 返回:None。
...@@ -143,22 +143,22 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 ...@@ -143,22 +143,22 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据
对InMemoryDataset的实例通过init和_init_distributed_settings初始化的配置进行更新。 对InMemoryDataset的实例通过init和_init_distributed_settings初始化的配置进行更新。
参数: 参数:
**kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。
batch_size(int): batch size的大小. 默认值为1。 - **batch_size** (int) - batch size的大小. 默认值为1。
thread_num(int): 用于训练的线程数, 默认值为1。 - **thread_num** (int) - 用于训练的线程数, 默认值为1。
use_var(list): 用于输入的variable列表,默认值为[]。 - **use_var** (list) - 用于输入的variable列表,默认值为[]。
input_type(int): 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 - **input_type** (int) - 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。
fs_name(str): hdfs名称. 默认值为""。 - **fs_name** (str) - hdfs名称. 默认值为""。
fs_ugi(str): hdfs的ugi. 默认值为""。 - **fs_ugi** (str) - hdfs的ugi. 默认值为""。
pipe_command(str): 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 - **pipe_command** (str) - 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。
download_cmd(str): 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 - **download_cmd** (str) - 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。
merge_size(int): - 通过样本id来设置合并,相同id的样本将会在shuffle之后进行合并,你应该在一个data生成器里面解析样本id。merge_size表示合并的最小数量,默认值为-1,表示不做合并。 - **merge_size** (int) - 通过样本id来设置合并,相同id的样本将会在shuffle之后进行合并,你应该在一个data生成器里面解析样本id。merge_size表示合并的最小数量,默认值为-1,表示不做合并。
parse_ins_id(bool): - 是否需要解析每条样的id,默认值为False。 - **parse_ins_id** (bool) - 是否需要解析每条样的id,默认值为False。
parse_content(bool): 是否需要解析每条样本的content, 默认值为False。 - **parse_content** (bool) 是否需要解析每条样本的content, 默认值为False。
fleet_send_batch_size(int): 设置发送batch的大小,默认值为1024。 - **fleet_send_batch_size** (int) - 设置发送batch的大小,默认值为1024。
fleet_send_sleep_seconds(int): 设置发送batch后的睡眠时间,默认值为0。 - **fleet_send_sleep_seconds** (int) - 设置发送batch后的睡眠时间,默认值为0。
fea_eval(bool): 设置特征打乱特征验证模式,来修正特征级别的重要性, 特征打乱需要 ``fea_eval`` 被设置为True. 默认值为False。 - **fea_eval** (bool) - 设置特征打乱特征验证模式,来修正特征级别的重要性, 特征打乱需要 ``fea_eval`` 被设置为True. 默认值为False。
candidate_size(int): 特征打乱特征验证模式下,用于随机化特征的候选池大小. 默认值为10000。 - **candidate_size** (int) - 特征打乱特征验证模式下,用于随机化特征的候选池大小. 默认值为10000。
返回:None。 返回:None。
...@@ -225,7 +225,7 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 ...@@ -225,7 +225,7 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据
参数: 参数:
- **filelist** (list) - 文件列表 - **filelist** (list[string]) - 文件列表
.. py:method:: load_into_memory() .. py:method:: load_into_memory()
...@@ -257,12 +257,12 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据 ...@@ -257,12 +257,12 @@ InMemoryDataset会根据用户自定义的预处理指令预处理原始数据
dataset.set_filelist(filelist) dataset.set_filelist(filelist)
dataset.load_into_memory() dataset.load_into_memory()
.. py:method:: preload_into_memory() .. py:method:: preload_into_memory(thread_num=None)
向内存中以异步模式加载数据。 向内存中以异步模式加载数据。
参数: 参数:
thread_num(int) - 异步加载数据时的线程数。 - **thread_num** (int) - 异步加载数据时的线程数。
**代码示例**: **代码示例**:
......
...@@ -27,15 +27,15 @@ QueueyDataset是流式处理数据使用Dataset类。与InmemoryDataset继承自 ...@@ -27,15 +27,15 @@ QueueyDataset是流式处理数据使用Dataset类。与InmemoryDataset继承自
对QueueDataset的实例进行配置初始化。 对QueueDataset的实例进行配置初始化。
参数: 参数:
**kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。 - **kwargs** - 可选的关键字参数,由调用者提供, 目前支持以下关键字配置。
batch_size(int): batch size的大小. 默认值为1。 - **batch_size** (int) - batch size的大小. 默认值为1。
thread_num(int): 用于训练的线程数, 默认值为1。 - **thread_num** (int) - 用于训练的线程数, 默认值为1。
use_var(list): 用于输入的variable列表,默认值为[]。 - **use_var** (list) - 用于输入的variable列表,默认值为[]。
input_type(int): 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。 - **input_type** (int) - 输入到模型训练样本的类型. 0 代表一条样本, 1 代表一个batch。 默认值为0。
fs_name(str): hdfs名称. 默认值为""。 - **fs_name** (str) - hdfs名称. 默认值为""。
fs_ugi(str): hdfs的ugi. 默认值为""。 - **fs_ugi** (str) - hdfs的ugi. 默认值为""。
pipe_command(str): 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。 - **pipe_command** (str) - 在当前的 ``dataset`` 中设置的pipe命令用于数据的预处理。pipe命令只能使用UNIX的pipe命令,默认为"cat"。
download_cmd(str): 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。 - **download_cmd** (str) - 数据下载pipe命令。 pipe命令只能使用UNIX的pipe命令, 默认为"cat"。
返回:None。 返回:None。
...@@ -135,4 +135,4 @@ QueueyDataset是流式处理数据使用Dataset类。与InmemoryDataset继承自 ...@@ -135,4 +135,4 @@ QueueyDataset是流式处理数据使用Dataset类。与InmemoryDataset继承自
参数: 参数:
- **filelist** (list) - 文件列表 - **filelist** (list[string]) - 文件列表
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册