集群模式参数设置
Created by: sarawon
按照cluster_train的步骤跑的集群demo
关于参数设置方面有几个问题:
1.下面命令里的trainer_count是跟所有机器上的pserver总数一样吗?还有每台机器上的pserver个数跟机器配置有关系吧?
python paddle.py
--job_dispatch_package="${PATH_TO_LOCAL_WORKSPACE}"
--dot_period=10
--ports_num_for_sparse=2
--log_period=50
--num_passes=10
--trainer_count=4
--saving_period=1
--local=0
--config=./trainer_config.py
--save_dir=./output
--use_gpu=0
2.感觉单机和集群模式训练模型使用的时间是一样的,是参数哪里设置的不对吗?
3.训练完了程序好久没有退出?