分布式任务提交中遇到若干问题
Created by: MrChengmo
1:文档只给出MPI_CPU的submit demo,未给出K8S_CPU\K8S_GPU的submit demo。
2:pip install paddlepaddle-gpu==1.7.2 --index-url=http://pip.baidu.com/pypi/simple --trusted-host pip.baidu.com mpi_cpu模式不需要gpu
3:如何在paddlecloud运行py3未给出说明,有两种方式:①:通过添加一个run.sh,在里面配置PATH 和执行python -m paddlerec.run -m config.yaml②:通过在config.ini中添加use_python3=1
4:FLAGS_communicator_max_merge_var_num: 5这个Flags说明一下,在sync和half_async时,需要和cpu_num个数相同。
5:个人感觉可以将backend.yaml文件中的内容全部放到config.yaml中,backend.yaml中重要是一个配置config和summit提交job作业,没有必要单独弄一个backend.yaml,只留一个config.yaml文档说明清楚如何配置提交到cloud的config和summit即可,这样从单机单卡、单机多卡、local_cluster\cluster都可以只用config.yaml,简洁明了;
6:现在cluster模式,只能支持train,未添加infer相关功能。 需求:PaddleRec分布式预测功能添加。
7:config.ini中的cpu_num默认等于1,如何通过backend.yaml控制cpu_num的值?文档需给出明确说明。