Created by: MrChengmo
PR types
New features,Bug fixes
PR changes
Others
Describe
-
优化fleetrun参数服务器任务启动代码,在
launch_utils.py
中增加了class ParameterServerLauncher
封装ps启动的实现 -
对fleetrun启动命令进行了整理,现在使用fleetrun --help会分类说明各个参数
-
支持fleetrun提交ps-heter、ps-gpu任务
# 1台机器通过多进程模拟, 2个服务节点搭配2个训练节点, 两个训练节点共用一张GPU卡
# 2个server 2个worker
export CUDA_VISIBLE_DEVICES=0
fleetrun --server_num=2 --worker_num=2 train.py
# 1台机器通过多进程模拟,2个服务节点搭配2个训练节点以及2个异构训练节点,每个异构训练节点占用一张GPU卡
# 2个server 2个worker 2个heter_worker
export CUDA_VISIBLE_DEVICES=0,1
fleetrun --server_num=2 --worker_num=2 --heter_worker_num=2 train.py
# 2个server 4个worker 1个异构训练节点
# 每台机器均指定了可用设备 GPU:0
export CUDA_VISIBLE_DEVICES=0
fleetrun --servers="xx.xx.xx.xx:6170,yy.yy.yy.yy:6171" --workers="xx.xx.xx.xx:6172,xx.xx.xx.xx:6173,xx.xx.xx.xx:6174,xx.xx.xx.xx:6175,yy.yy.yy.yy:6176,yy.yy.yy.yy:6177,yy.yy.yy.yy:6178,yy.yy.yy.yy:6179" --heter_workers="xx.xx.xx.xx:6180,yy.yy.yy.yy:6181" train.py
-
优化PaddleCloud RoleMaker 中 参数服务器环境变量检查的用户易用性
去掉了
_ps_env
中的try&catch,os.env[]全部改为os.getenv()