dataset_cn.rst 5.8 KB
Newer Older
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
#################
 fluid.dataset
#################






.. _cn_api_fluid_dataset_DatasetFactory:

DatasetFactory
-------------------------------

.. py:class:: paddle.fluid.dataset.DatasetFactory

R
RaindragonD 已提交
17 18
DatasetFactory是一个按数据集名称创建数据集的 "工厂",可以创建“QueueDataset”,“InMemoryDataset”或“FileInstantDataset”,默认为“QueueDataset”。

19 20 21 22 23

**代码示例**

.. code-block:: python

R
RaindragonD 已提交
24 25
    import paddle.fluid as fluid
    dataset = paddle.fluid.DatasetFactory().create_dataset("InMemoryDataset")
26 27 28

.. py:method:: create_dataset(datafeed_class='QueueDataset')

R
RaindragonD 已提交
29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111
创建“QueueDataset”,“InMemoryDataset” 或 “FileInstantDataset”,默认为“QueueDataset”。


参数:
    - **datafeed_class** (str) – datafeed类名,为QueueDataset或InMemoryDataset。默认为QueueDataset。

**代码示例**:

.. code-block:: python

    import paddle.fluid as fluid
    dataset = fluid.DatasetFactory().create_dataset()



.. _cn_api_fluid_dataset_InMemoryDataset:

InMemoryDataset
-------------------------------

.. py:class:: paddle.fluid.dataset.InMemoryDataset

InMemoryDataset会向内存中加载数据并在训练前缓冲数据。此类由DatasetFactory创建。

**代码示例**:

.. code-block:: python

    dataset = paddle.fluid.DatasetFactory().create_dataset(“InMemoryDataset”)


.. py:method:: load_into_memory()

向内存中加载数据。

**代码示例**:

.. code-block:: python

    import paddle.fluid as fluid
    dataset = fluid.DatasetFactory().create_dataset("InMemoryDataset")
    filelist = ["a.txt", "b.txt"]
    dataset.set_filelist(filelist)
    dataset.load_into_memory()


.. py:method:: local_shuffle()

局域shuffle。

**代码示例**:

.. code-block:: python

    import paddle.fluid as fluid
    dataset = fluid.DatasetFactory().create_dataset("InMemoryDataset")
    filelist = ["a.txt", "b.txt"]
    dataset.set_filelist(filelist)
    dataset.load_into_memory()
    dataset.local_shuffle()


.. py:method:: global_shuffle(fleet=None)

全局shuffle。

只能用在分布式模式(单机多进程或多机多进程)中。您如果在分布式模式中运行,应当传递fleet而非None。

**代码示例**:

.. code-block:: python

    import paddle.fluid as fluid
    from paddle.fluid.incubate.fleet.parameter_server.pslib import fleet
    dataset = fluid.DatasetFactory().create_dataset("InMemoryDataset")
    filelist = ["a.txt", "b.txt"]
    dataset.set_filelist(filelist)
    dataset.load_into_memory()
    dataset.global_shuffle(fleet)

参数:
    - **fleet** (Fleet) – fleet单例。默认为None。

112

R
RaindragonD 已提交
113
.. py:method:: release_memory()
114

R
RaindragonD 已提交
115
当数据不再使用时,释放InMemoryDataset内存数据。
116

R
RaindragonD 已提交
117
**代码示例**:
118

R
RaindragonD 已提交
119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181
.. code-block:: python

    import paddle.fluid as fluid
    from paddle.fluid.incubate.fleet.parameter_server.pslib import fleet
    dataset = fluid.DatasetFactory().create_dataset("InMemoryDataset")
    filelist = ["a.txt", "b.txt"]
    dataset.set_filelist(filelist)
    dataset.load_into_memory()
    dataset.global_shuffle(fleet)
    exe = fluid.Executor(fluid.CPUPlace())
    exe.run(fluid.default_startup_program())
    exe.train_from_dataset(fluid.default_main_program(), dataset)dataset.release_memory()
    dataset.release_memory()

.. py:method:: get_memory_data_size(fleet=None)

用户可以调用此函数以了解加载进内存后所有workers中的ins数量。

.. note::
    该函数可能会导致性能不佳,因为它具有barrier。

参数:
    - **fleet** (Fleet) – fleet对象。

返回:内存数据的大小。

**代码示例**:

.. code-block:: python

    import paddle.fluid as fluid
    from paddle.fluid.incubate.fleet.parameter_server.pslib import fleet
    dataset = fluid.DatasetFactory().create_dataset("InMemoryDataset")
    filelist = ["a.txt", "b.txt"]
    dataset.set_filelist(filelist)
    dataset.load_into_memory()
    print dataset.get_memory_data_size(fleet)


.. py:method:: get_shuffle_data_size(fleet=None)

获取shuffle数据大小,用户可以调用此函数以了解局域/全局shuffle后所有workers中的ins数量。

.. note::
    该函数可能会导致局域shuffle性能不佳,因为它具有barrier。但其不影响局域shuffle。

参数:
    - **fleet** (Fleet) – fleet对象。

返回:shuffle数据的大小。

**代码示例**:

.. code-block:: python

    import paddle.fluid as fluid
    from paddle.fluid.incubate.fleet.parameter_server.pslib import fleet
    dataset = fluid.DatasetFactory().create_dataset("InMemoryDataset")
    filelist = ["a.txt", "b.txt"]
    dataset.set_filelist(filelist)
    dataset.load_into_memory()
    dataset.global_shuffle(fleet)
    print dataset.get_shuffle_data_size(fleet)
182 183 184 185




R
RaindragonD 已提交
186
.. _cn_api_fluid_dataset_QueueDataset:
187

R
RaindragonD 已提交
188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206
QueueDataset
-------------------------------

.. py:class:: paddle.fluid.dataset.QueueDataset

流式处理数据。

**代码示例**:

.. code-block:: python

    import paddle.fluid as fluid
    dataset = fluid.DatasetFactory().create_dataset("QueueDataset")



.. py:method:: local_shuffle()

局域shuffle数据
207

R
RaindragonD 已提交
208
QueueDataset中不支持局域shuffle,可能抛出NotImplementedError
209

R
RaindragonD 已提交
210
**代码示例**:
211

R
RaindragonD 已提交
212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228
.. code-block:: python

    import paddle.fluid as fluid
    dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
    dataset.local_shuffle()



.. py:method:: global_shuffle(fleet=None)

全局shuffle数据

QueueDataset中不支持全局shuffle,可能抛出NotImplementedError

**代码示例**:

.. code-block:: python
229

R
RaindragonD 已提交
230 231 232 233
    import paddle.fluid as fluid
    from paddle.fluid.incubate.fleet.parameter_server.pslib import fleet
    dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
    dataset.global_shuffle(fleet)
234