Created by: Cwndmiao
在厂内mpi集群上尝试运行fluid分布式训练,使用的测试程序是test_fit_a_line.py。
使用mpirun train.sh在每个mpi节点上运行train.sh,主要内容如下。
mpirun train.sh
train.sh
程序崩溃时看到的log如下。