diff --git a/doc/custom_dataset_reader.md b/doc/custom_dataset_reader.md index 2a630b23a499b2e5e63bd4d079118905f42b8eeb..b938ab0baccb326ac725422b1ee862be3d6e29eb 100644 --- a/doc/custom_dataset_reader.md +++ b/doc/custom_dataset_reader.md @@ -87,30 +87,30 @@ Reader的逻辑需要一个单独的python文件进行描述。我们试写一 3. 在`init(self)`函数中声明一些在数据读取中会用到的变量,必要时可以在`config.yaml`文件中配置变量,利用`env.get_global_env()`拿到。 -比如,我们希望从yaml文件中读取一个数据预处理变量`avg=10`,目的是将数据A的数据缩小10倍,可以这样实现: - -- 首先更改yaml文件,在某个space下加入该变量 - - ```yaml - ... - train: - reader: - avg: 10 - ... - ``` + 比如,我们希望从yaml文件中读取一个数据预处理变量`avg=10`,目的是将数据A的数据缩小10倍,可以这样实现: + - 首先更改yaml文件,在某个space下加入该变量 + + ```yaml + ... + train: + reader: + avg: 10 + ... + ``` -- 再更改Reader的init函数 - - ```python - from paddlerec.core.utils import envs - class TrainerReader(Reader): - def init(self): - self.avg = envs.get_global_env("avg", None, "train.reader") - def generator_sample(self, line): - pass - ``` + - 再更改Reader的init函数 + + ```python + from paddlerec.core.utils import envs + class TrainerReader(Reader): + def init(self): + self.avg = envs.get_global_env("avg", None, "train.reader") + + def generator_sample(self, line): + pass + ``` 4. 继承并实现基类中的`generate_sample(self, line)`函数,逐行读取数据。 - 该函数应返回一个可以迭代的reader方法(带有yield的函数不再是一个普通的函数,而是一个生成器generator,成为了可以迭代的对象,等价于一个数组、链表、文件、字符串etc.) diff --git a/readme.md b/readme.md index f756538e14c0218278e8fc361d894092d1b65202..25269b09c56d02de9ceb1f0809525d74e60ad8f0 100644 --- a/readme.md +++ b/readme.md @@ -130,8 +130,8 @@ python -m paddlerec.run -m ./models/rank/dnn/config.yaml -e single