diff --git a/doc/custom_dataset_reader.md b/doc/custom_dataset_reader.md index b938ab0baccb326ac725422b1ee862be3d6e29eb..e33e34afcb9808273ac86c7d1bc327bc400ccf6c 100644 --- a/doc/custom_dataset_reader.md +++ b/doc/custom_dataset_reader.md @@ -87,30 +87,30 @@ Reader的逻辑需要一个单独的python文件进行描述。我们试写一 3. 在`init(self)`函数中声明一些在数据读取中会用到的变量,必要时可以在`config.yaml`文件中配置变量,利用`env.get_global_env()`拿到。 - 比如,我们希望从yaml文件中读取一个数据预处理变量`avg=10`,目的是将数据A的数据缩小10倍,可以这样实现: +比如,我们希望从yaml文件中读取一个数据预处理变量`avg=10`,目的是将数据A的数据缩小10倍,可以这样实现: - - 首先更改yaml文件,在某个space下加入该变量 - - ```yaml - ... - train: - reader: - avg: 10 - ... - ``` + 首先更改yaml文件,在某个space下加入该变量 + + ```yaml + ... + train: + reader: + avg: 10 + ... + ``` - - 再更改Reader的init函数 - - ```python - from paddlerec.core.utils import envs - class TrainerReader(Reader): - def init(self): - self.avg = envs.get_global_env("avg", None, "train.reader") - - def generator_sample(self, line): - pass - ``` + 再更改Reader的init函数 + + ```python + from paddlerec.core.utils import envs + class TrainerReader(Reader): + def init(self): + self.avg = envs.get_global_env("avg", None, "train.reader") + + def generator_sample(self, line): + pass + ``` 4. 继承并实现基类中的`generate_sample(self, line)`函数,逐行读取数据。 - 该函数应返回一个可以迭代的reader方法(带有yield的函数不再是一个普通的函数,而是一个生成器generator,成为了可以迭代的对象,等价于一个数组、链表、文件、字符串etc.)