分布式训练的文档中参数说明有若干错误
Created by: houj04
文档是这个:
其中提到了
设置节点数:通过环境变量
PADDLE_NUM_TRAINERS
设置作业的节点数,此环境变量也会被设置在每个训练进程中。
但是其实代码中对应的是PADDLE_TRAINERS_NUM
,比如下面这两个文件中都有。
https://github.com/PaddlePaddle/Paddle/blob/release/1.8/python/paddle/distributed/utils.py https://github.com/PaddlePaddle/Paddle/blob/release/1.8/python/paddle/distributed/cloud_utils.py
类似的,文档中提到了
PADDLE_NUM_TRAINERS=<TRAINER_COUNT> python -m paddle.distributed.launch --gpus <NUM_GPUS_ON_HOSTS> <ENTRYPOINT_SCRIPT> --arg1 --arg2 ...
上面这句脚本,除了应该把PADDLE_NUM_TRAINERS
替换成PADDLE_TRAINERS_NUM
以外,还需要把这个--gpus
替换成--selected_gpus
。理由很简单,要执行的这个脚本里面
https://github.com/PaddlePaddle/Paddle/blob/release/1.8/python/paddle/distributed/launch.py
脚本的自带注释就是这么写的:
2. for single node training with [0,4) cards python -m paddle.distributed.launch --selected_gpus="0,1,2,3" \ your_training_py (arg1 arg2 and all others)