k8s_job.sh.template 1.1 KB
Newer Older
C
Chengmo 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
#!/bin/bash
###############################################################
##                  注意-- 注意--注意                          ##
##                 K8S NCCL2多机作业作业示例                    ##
###############################################################
job_name=${JOB_NAME}

# 作业参数
group_name="<$ GROUP_NAME $>"               
job_version="paddle-fluid-v1.7.1"
start_cmd="<$ START_CMD $>"
wall_time="10:00:00"

k8s_priority=<$ K8S_PRIORITY $>
k8s_trainers=<$ K8S_TRAINERS $>
k8s_gpu_cards=<$ K8S_GPU_CARD $>

# 你的ak/sk(可在paddlecloud web页面【个人中心】处获取)
ak=<$ AK $>
sk=<$ SK $>

paddlecloud job --ak ${ak} --sk ${sk} \
        train --job-name ${job_name} \
        --group-name ${group_name} \
        --job-conf config.ini \
        --start-cmd "${start_cmd}" \
        --files ./*  \
        --job-version ${job_version}  \
        --k8s-trainers ${k8s_trainers} \
        --k8s-gpu-cards ${k8s_gpu_cards} \
        --k8s-priority ${k8s_priority} \
        --wall-time ${wall_time} \
        --is-standalone 0 \
        --distribute-job-type "NCCL2" \
        --json