集群预测任务失败
Created by: jcqu
集群预测任务失败,查看log日志没有进入预测阶段,模型加载出错。 配置文件如下:
18 key=`date -d "0 hour" +%Y%m%d%H%M%S`
19 test_data_path="*/daily/${now_day}/testdata"
20 model_path="*/model_file/infer_params.tar.gz"
21 output_path="*/daily/${now_day}/output"
22 hadoop fs -rmr $output_path
23 hadoop fs -mkdir $output_path
24
25 paddle cluster_train \
26 --config ltr_infer_online.py \
27 --use_remote_sparse 0 \
28 --use_gpu cpu \
29 --port 8306 \
30 --ports_num 8 \
31 --time_limit 512:00:00 \
32 --submitter *** \
33 --config_args is_predict=1 \
34 --num_nodes 20 \
35 --job_priority normal \
36 --fs_name *** \
37 --fs_ugi *** \
38 --init_model_path ${model_path} \
39 --test_data_path ${test_data_path} \
40 --output_path ${output_path} \
41 --where *** \
42 --job_name paddle_cluster_ranknet_$key
查看运行代码init_model_path 似乎应该是一个目录,而不是具体文件?
if [ -n "${init_model_path}" ]; then
hadoop_get_file ${HADOOP_HOME} ${fs_name} ${fs_ugi} \
${init_model_path} ./init_model_path/pass-00000
check_return "download init_model_path failed"
mv ./init_model_path/pass-00000/* ./init_model_path/
请问 conf文件中init_model_path要指定到tar.gz文件还是它的上级目录呢? 在python文件中,infer函数倒入模型的路径又该如何定义呢? 谢谢