集群训练与预测

1. 集群多节点训练,日志中保存均为网络通信类错误

集群多节点训练,日志报错为网络通信类错误,比如 Connection reset by peer 等。 此类报错通常是由于某一个节点的错误导致这个节点的训练进程退出,从而引发其他节点无法连接导致,可以参考下面的步骤排查:

  • train.logserver.log 找到最早报错的地方,查看是否是其他错误引发的报错(比如FPE,内存不足,磁盘空间不足等)。
  • 如果发现最早的报错就是网络通信的问题,很有可能是非独占方式执行导致的端口冲突,可以联系OP,看当前MPI集群是否支持resource=full参数提交,如果支持增加此参数提交,并更换job 端口。
  • 如果当前MPI集群并不支持任务独占模式,可以联系OP是否可以更换集群或升级当前集群。