# PaddleRec config.yaml配置说明

## 全局变量

 |   名称    |         类型          |                         取值                          | 是否必须 |                      作用描述                      |
 | :-------: | :-------------------: | :---------------------------------------------------: | :------: | :------------------------------------------------: |
 | workspace |        string         |      绝对路径 或 paddlerec.models.{方向}.{模型}       |    是    |           指定model/reader/data所在位置            |
 |   mode    | string / list[string] | string：单个runner的名称 / list：多个runner名称的列表 |    是    |             指定当次运行使用哪些runner             |
 |   debug   |         bool          |                     True / False                      |    否    | 当dataset.mode=QueueDataset时，开启op耗时debug功能 |


## runner变量

|             名称              |     类型     |                     取值                      | 是否必须 |                               作用描述                               |
| :---------------------------: | :----------: | :-------------------------------------------: | :------: | :------------------------------------------------------------------: |
|             name              |    string    |                     任意                      |    是    |                            指定runner名称                            |
|             class             |    string    | train(默认) / infer / local_cluster_train / cluster_train |    是    |           指定运行runner的类别（单机/分布式， 训练/预测）            |
|            device             |    string    |                cpu(默认) / gpu                |    否    |                             程序执行设备                             |
|          fleet_mode           |    string    |         ps(默认) / pslib / collective         |    否    |                            分布式运行模式                            |
|         selected_gpus         |    string    |                   "0"(默认)                   |    否    | 程序运行GPU卡号，若以"0,1"的方式指定多卡，则会默认启用collective模式 |
|          worker_num           |     int      |                    1(默认)                    |    否    |                     参数服务器模式下worker的数量                     |
|          server_num           |     int      |                    1(默认)                    |    否    |                     参数服务器模式下server的数量                     |
|      distribute_strategy      |    string    |        async(默认)/sync/half_async/geo        |    否    |                    参数服务器模式下训练模式的选择                    |
|            epochs             |     int      |                     >= 1                      |    否    |                           模型训练迭代轮数                           |
|            phases             | list[string] |            由phase name组成的list             |    否    |                  当前runner的训练过程列表，顺序执行                  |
|        init_model_path        |    string    |                     路径                      |    否    |                            初始化模型地址                            |
|   save_checkpoint_interval    |     int      |                     >= 1                      |    否    |                          Save参数的轮数间隔                          |
|     save_checkpoint_path      |    string    |                     路径                      |    否    |                            Save参数的地址                            |
|    save_inference_interval    |     int      |                     >= 1                      |    否    |                        Save预测模型的轮数间隔                        |
|      save_inference_path      |    string    |                     路径                      |    否    |                          Save预测模型的地址                          |
| save_inference_feed_varnames  | list[string] |           组网中指定Variable的name            |    否    |                        预测模型的入口变量name                        |
| save_inference_fetch_varnames | list[string] |           组网中指定Variable的name            |    否    |                        预测模型的出口变量name                        |
|        print_interval         |     int      |                     >= 1                      |    否    |                        训练指标打印batch间隔                         |
|      instance_class_path      |    string    |                     路径                      |    否    |                     自定义instance流程实现的地址                     |
|      network_class_path       |    string    |                     路径                      |    否    |                     自定义network流程实现的地址                      |
|      startup_class_path       |    string    |                     路径                      |    否    |                     自定义startup流程实现的地址                      |
|       runner_class_path       |    string    |                     路径                      |    否    |                      自定义runner流程实现的地址                      |
|      terminal_class_path      |    string    |                     路径                      |    否    |                     自定义terminal流程实现的地址                     |


## phase变量

|     名称     |  类型  |     取值     | 是否必须 |            作用描述             |
| :----------: | :----: | :----------: | :------: | :-----------------------------: |
|     name     | string |     任意     |    是    |          指定phase名称          |
|    model     | string | model.py路径 |    是    | 指定Model()所在的python文件地址 |
| dataset_name | string | dataset名称  |    是    |       指定使用哪个Reader        |
|  thread_num  |  int   |     >= 1     |    否    |         模型训练线程数          |


## dataset变量

|      名称      |  类型  |           取值            | 是否必须 |            作用描述            |
| :------------: | :----: | :-----------------------: | :------: | :----------------------------: |
|      name      | string |           任意            |    是    |        指定dataset名称         |
|      type      | string | DataLoader / QueueDataset |    是    |        指定数据读取方式        |
|   batch_size   |  int   |           >= 1            |    否    |       指定批训练样本数量       |
|   data_path    | string |           路径            |    是    |        指定数据来源地址        |
| data_converter | string |       reader.py路径       |    是    | 指定Reader()所在python文件地址 |
|  sparse_slots  | string |          string           |    否    |        指定稀疏参数选项        |
|  dense_slots   | string |          string           |    否    |        指定稠密参数选项        |


## hyper_parameters变量
|          名称           |  类型  |       取值       | 是否必须 |          作用描述           |
| :---------------------: | :----: | :--------------: | :------: | :-------------------------: |
|     optimizer.class     | string | SGD/Adam/Adagrad |    是    |       指定优化器类型        |
| optimizer.learning_rate | float  |       > 0        |    否    |         指定学习率          |
|           reg           | float  |       > 0        |    否    | L2正则化参数，只在SGD下生效 |
|         others          |   /    |        /         |    /     |   由各个模型组网独立指定    |


# PaddleRec backend.yaml配置说明

## 全局变量

 |   名称    |         类型          |                         取值                          | 是否必须 |                      作用描述                      |
 | :-------: | :-------------------: | :---------------------------------------------------: | :------: | :------------------------------------------------: |
 | backend |        string         |      paddlecloud/k8s       |    是    |           使用PaddleCloud平台提交，还是在公有云K8S集群提交            |
 |   cluster_type    | string  | mpi/k8s |    是    |             指定运行的计算集群： mpi 还是 k8s             |

 ## config
 |             名称              |     类型     |                     取值                      | 是否必须 |                               作用描述                               |
| :---------------------------: | :----------: | :-------------------------------------------: | :------: | :------------------------------------------------------------------: |
|             paddle_version             |    string    | paddle官方版本号，如1.7.2/1.8.0/1.8.3等 |    否    |           指定运行训练使用的Paddle版本，默认1.7.2            |
|            use_python3             |    int    |                0（默认）/1                |    否    |              指定是否使用python3进行训练                           |
|          fs_name           |    string    |         "afs://xxx.com"         |    是    |                            hadoop集群名称所需配置                            |