集群版paddle只训练一个pass就卡住
Created by: 333caowei
部门新注册到IDL的Receiver的集群版本paddle,运行.jumbo中的paddle_platform里面的sentiment的demo。
(注意:因为Receiver上面的paddle二进制比较新,demo代码dataprovider.py默认import是老版本PyDataProviderWrapper,所以这里我已import换成新版本PyDataProvider2,在sentiment_net.py文件中也将调用的define_py_data_sources函数修改成define_py_data_sources2函数)。
现在运行demo时候发现程序只能执行一次pass就卡住了,我设置的num_passes=10,另外mpi的time_limit也没有超时。
paddle_trainer.INFO输出如图: