Merge pull request #132 from Oneflow-Inc/args_ctrl_port

Args ctrl port

Merge pull request #132 from Oneflow-Inc/args_ctrl_port
Args ctrl port
441d24d3 · ShawnXuan · GitHub · c702a2bb · 9c469831 · 441d24d3
5 changed file
--- a/Classification/cnns/config.py
+++ b/Classification/cnns/config.py
@@ -52,6 +52,7 @@ def get_parser(parser=None):
                        help='node/machine number for training')
    parser.add_argument('--node_ips', type=str_list, default=['192.168.1.13', '192.168.1.14'],
                        help='nodes ip list for training, devided by ",", length >= num_nodes')
+    parser.add_argument("--ctrl_port", type=int, default=50051, help='ctrl_port for multinode job')
    parser.add_argument("--model", type=str, default="resnet50",
                        help="resnet50")

--- a/Classification/cnns/util.py
+++ b/Classification/cnns/util.py
@@ -25,7 +25,7 @@ import oneflow as flow
 def InitNodes(args):
    if args.num_nodes > 1:
        assert args.num_nodes <= len(args.node_ips)
-        flow.env.ctrl_port(12138)
+        flow.env.ctrl_port(args.ctrl_port)
        nodes = []
        for ip in args.node_ips[:args.num_nodes]:
            addr_dict = {}

--- a/ClickThroughRate/WideDeepLearning/wdl_train_eval.py
+++ b/ClickThroughRate/WideDeepLearning/wdl_train_eval.py
@@ -50,6 +50,7 @@ parser.add_argument('--num_nodes', type=int, default=1,
                    help='node/machine number for training')
 parser.add_argument('--node_ips', type=str_list, default=['192.168.1.13', '192.168.1.14'],
                    help='nodes ip list for training, devided by ",", length >= num_nodes')
+parser.add_argument("--ctrl_port", type=int, default=50051, help='ctrl_port for multinode job')
 parser.add_argument('--hidden_units_num', type=int, default=7)
 parser.add_argument('--hidden_size', type=int, default=1024)
@@ -189,7 +190,7 @@ def eval_job():
 def InitNodes(args):
    if args.num_nodes > 1:
        assert args.num_nodes <= len(args.node_ips)
-        flow.env.ctrl_port(12138)
+        flow.env.ctrl_port(args.ctrl_port)
        nodes = []
        for ip in args.node_ips[:args.num_nodes]:
            addr_dict = {}

--- a/LanguageModeling/BERT/config.py
+++ b/LanguageModeling/BERT/config.py
@@ -48,6 +48,7 @@ def get_parser(parser=None):
                        help='node/machine number for training')
    parser.add_argument('--node_ips', type=str_list, default=['192.168.1.13', '192.168.1.14'],
                        help='nodes ip list for training, devided by ",", length >= num_nodes')
+    parser.add_argument("--ctrl_port", type=int, default=50051, help='ctrl_port for multinode job')
    # train
    parser.add_argument("--learning_rate", type=float, default=1e-4, help="Learning rate")

--- a/LanguageModeling/BERT/util.py
+++ b/LanguageModeling/BERT/util.py
@@ -26,7 +26,7 @@ import oneflow as flow
 def InitNodes(args):
    if args.num_nodes > 1:
        assert args.num_nodes <= len(args.node_ips)
-        #flow.env.ctrl_port(12138)
+        flow.env.ctrl_port(args.ctrl_port)
        nodes = []
        for ip in args.node_ips[:args.num_nodes]:
            addr_dict = {}