关于分布式训练时,如何判断pserver正常启动?
Created by: drinktee
在分布式训练部署的时候,要先正常启动所有节点的pserver,才能进行paddle train 否则paddle train进程就会报错退出。我在部署的时候采取了简单的等待几秒钟,在进行训练。是否有一个更保险的方法来判断呢?我想到的是
1.启动时通过脚本去检查一下pserver的日志,来判断是否已经正常启动,如果这样做的话,又需要一个方法通知所有trainer,这个pserver已经正常启动了。比如判断正常启动后开个webserver返回200
2.paddle启动完pserver后开个端口用来健康检查