add cluster_train.sh

e5136175 · Qiao Longfei · fee6f707 · e5136175 · e5136175 · e5136175
3 changed file
--- a/fluid/recommendation/ctr/README.cn.md
+++ b/fluid/recommendation/ctr/README.cn.md
@@ -53,45 +53,7 @@ python train.py \
 本地启动一个2 trainer 2 pserver的分布式训练任务
 ```bash
-# start pserver0
+sh cluster_train.sh
-python train.py \
-    --train_data_path /paddle/data/train.txt \
-    --is_local 0 \
-    --role pserver \
-    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
-    --current_endpoint 127.0.0.1:6000 \
-    --trainers 2 \
-    > pserver0.log 2>&1 &
-# start pserver1
-python train.py \
-    --train_data_path /paddle/data/train.txt \
-    --is_local 0 \
-    --role pserver \
-    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
-    --current_endpoint 127.0.0.1:6001 \
-    --trainers 2 \
-    > pserver1.log 2>&1 &
-# start trainer0
-python train.py \
-    --train_data_path /paddle/data/train.txt \
-    --is_local 0 \
-    --role trainer \
-    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
-    --trainers 2 \
-    --trainer_id 0 \
-    > trainer0.log 2>&1 &
-# start trainer1
-python train.py \
-    --train_data_path /paddle/data/train.txt \
-    --is_local 0 \
-    --role trainer \
-    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
-    --trainers 2 \
-    --trainer_id 1 \
-    > trainer1.log 2>&1 &
 ```
 ## 预测

--- a/fluid/recommendation/ctr/README.md
+++ b/fluid/recommendation/ctr/README.md
@@ -64,46 +64,9 @@ cost is `0.445196`.
 ### Distributed Train
 Run a 2 pserver 2 trainer distribute training on a single machine
 ```bash
-# start pserver0
+sh cluster_train.sh
-python train.py \
-    --train_data_path /paddle/data/train.txt \
-    --is_local 0 \
-    --role pserver \
-    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
-    --current_endpoint 127.0.0.1:6000 \
-    --trainers 2 \
-    > pserver0.log 2>&1 &
-# start pserver1
-python train.py \
-    --train_data_path /paddle/data/train.txt \
-    --is_local 0 \
-    --role pserver \
-    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
-    --current_endpoint 127.0.0.1:6001 \
-    --trainers 2 \
-    > pserver1.log 2>&1 &
-# start trainer0
-python train.py \
-    --train_data_path /paddle/data/train.txt \
-    --is_local 0 \
-    --role trainer \
-    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
-    --trainers 2 \
-    --trainer_id 0 \
-    > trainer0.log 2>&1 &
-# start trainer1
-python train.py \
-    --train_data_path /paddle/data/train.txt \
-    --is_local 0 \
-    --role trainer \
-    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
-    --trainers 2 \
-    --trainer_id 1 \
-    > trainer1.log 2>&1 &
 ```
 ## Infer

--- a/fluid/recommendation/ctr/cluster_train.sh
+++ b/fluid/recommendation/ctr/cluster_train.sh
+#!/bin/bash
+# start pserver0
+python train.py \
+    --train_data_path /paddle/data/train.txt \
+    --is_local 0 \
+    --role pserver \
+    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
+    --current_endpoint 127.0.0.1:6000 \
+    --trainers 2 \
+    > pserver0.log 2>&1 &
+# start pserver1
+python train.py \
+    --train_data_path /paddle/data/train.txt \
+    --is_local 0 \
+    --role pserver \
+    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
+    --current_endpoint 127.0.0.1:6001 \
+    --trainers 2 \
+    > pserver1.log 2>&1 &
+# start trainer0
+python train.py \
+    --train_data_path /paddle/data/train.txt \
+    --is_local 0 \
+    --role trainer \
+    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
+    --trainers 2 \
+    --trainer_id 0 \
+    > trainer0.log 2>&1 &
+# start trainer1
+python train.py \
+    --train_data_path /paddle/data/train.txt \
+    --is_local 0 \
+    --role trainer \
+    --endpoints 127.0.0.1:6000,127.0.0.1:6001 \
+    --trainers 2 \
+    --trainer_id 1 \
+    > trainer1.log 2>&1 &
\ No newline at end of file