Merge pull request #12456 from jacquesqiao/add-profiler-to-pserver

Add profiler to pserver

Merge pull request #12456 from jacquesqiao/add-profiler-to-pserver
Add profiler to pserver
690625fe · Qiao Longfei · GitHub · 6d3da458 · 7e46a8d1 · 690625fe
隐藏空白更改
内联并排

Showing with 26 addition and 0 deletion

paddle/fluid/operators/listen_and_serv_op.cc paddle/fluid/operators/listen_and_serv_op.cc +25 -0

python/paddle/fluid/__init__.py python/paddle/fluid/__init__.py +1 -0

未找到文件。
--- a/paddle/fluid/operators/listen_and_serv_op.cc
+++ b/paddle/fluid/operators/listen_and_serv_op.cc
@@ -19,12 +19,17 @@ limitations under the License. */
 #include <thread>  // NOLINT
 #include <vector>

+#include "gflags/gflags.h"
+
 #include "paddle/fluid/operators/detail/macros.h"

 #include "paddle/fluid/operators/distributed/request_handler_impl.h"
 #include "paddle/fluid/operators/listen_and_serv_op.h"
 #include "paddle/fluid/platform/profiler.h"

+DEFINE_int32(listen_and_serv_profile_period, 0,
+             "the period of listen_and_serv to do profile");
+
 namespace paddle {
 namespace operators {

@@ -122,7 +127,18 @@ void ListenAndServOp::RunSyncLoop(
      std::shared_ptr<framework::ExecutorPrepareContext>(nullptr));

  rpc_service_->ResetBarrierCounter();
+
+  int32_t profile_step = 0;
  while (true) {
+    PADDLE_ENFORCE_LE(profile_step, FLAGS_listen_and_serv_profile_period,
+                      "profile_step should not be larger then "
+                      "FLAGS_listen_and_serv_profile_period");
+    if (FLAGS_listen_and_serv_profile_period > 0) {
+      if (profile_step == 0) {
+        auto pf_state = paddle::platform::ProfilerState::kCPU;
+        paddle::platform::EnableProfiler(pf_state);
+      }
+    }
    // Get from multiple trainers, we don't care about the order in which
    // the gradients arrives, just add suffix 0~n and merge the gradient.
    rpc_service_->SetCond(distributed::kRequestSend);
@@ -164,6 +180,15 @@ void ListenAndServOp::RunSyncLoop(
    // reset received sparse vars to avoid reuse it in the next mini-batch
    dynamic_cast<distributed::RequestSendHandler *>(request_send_handler_.get())
        ->ResetSparseVarRecorder();
+    if (FLAGS_listen_and_serv_profile_period > 0) {
+      if (profile_step == FLAGS_listen_and_serv_profile_period) {
+        paddle::platform::DisableProfiler(
+            paddle::platform::EventSortingKey::kTotal, "/dev/null");
+        profile_step = 0;
+      } else {
+        profile_step++;
+      }
+    }
  }  // while(true)
 }


--- a/python/paddle/fluid/__init__.py
+++ b/python/paddle/fluid/__init__.py
@@ -127,6 +127,7 @@ def __bootstrap__():
    ]
    if core.is_compiled_with_dist():
        read_env_flags.append('rpc_deadline')
+        read_env_flags.append('listen_and_serv_profile_period')

    if core.is_compiled_with_cuda():
        read_env_flags += [