Try to speed up buffered reader

e576345f · yuyang18 · 61b3a597 · e576345f · e576345f
Showing with 43 addition and 25 deletion

paddle/fluid/operators/reader/buffered_reader.cc paddle/fluid/operators/reader/buffered_reader.cc +37 -23

paddle/fluid/operators/reader/buffered_reader.h paddle/fluid/operators/reader/buffered_reader.h +6 -2

未找到文件。
--- a/paddle/fluid/operators/reader/buffered_reader.cc
+++ b/paddle/fluid/operators/reader/buffered_reader.cc
@@ -18,10 +18,7 @@
 namespace paddle {
 namespace operators {
 namespace reader {
-BufferedReader::~BufferedReader() {
+BufferedReader::~BufferedReader() { reader_->Shutdown(); }
-  reader_->Shutdown();
-  buffer_.clear();
-}
 BufferedReader::BufferedReader(
    const std::shared_ptr<framework::ReaderBase> &reader,
    const platform::Place &place, size_t buffer_size)
@@ -29,43 +26,60 @@ BufferedReader::BufferedReader(
      thread_pool_(1),
      place_(place),
      buffer_size_(buffer_size) {
+  cpu_buffer_.resize(buffer_size);
+  gpu_buffer_.resize(buffer_size);
  AppendFutureToBatchSize();
 }
 void BufferedReader::AppendFutureToBatchSize() {
-  while (buffer_.size() < buffer_size_) {
+  PADDLE_ENFORCE_EQ(position_.size(), 0U);
-    AppendFuture();
+  for (size_t i = 0; i < buffer_size_; ++i) {
+    AppendFuture(i);
  }
 }
-void BufferedReader::AppendFuture() {
+void BufferedReader::AppendFuture(size_t i) {
-  buffer_.emplace_back(thread_pool_.enqueue([this] {
+  position_.emplace(thread_pool_.enqueue([this, i]() -> size_t {
-    TensorVec cpu_buffer;
+    TensorVec &cpu = cpu_buffer_[i];
-    reader_->ReadNext(&cpu_buffer);
+    reader_->ReadNext(&cpu);
-    if (platform::is_gpu_place(place_)) {
-      TensorVec gpu_buffer;
-      for (size_t i = 0; i < cpu_buffer.size(); ++i) {
+    if (cpu.empty()) {
-        gpu_buffer.emplace_back();
+      return -1UL;
-        framework::TensorCopySync(cpu_buffer[i], place_, &gpu_buffer.back());
    }
-      cpu_buffer = gpu_buffer;
+    if (platform::is_gpu_place(place_)) {
+      TensorVec &gpu = gpu_buffer_[i];
+      gpu.resize(cpu.size());
+      for (size_t i = 0; i < cpu.size(); ++i) {
+        framework::TensorCopySync(cpu[i], place_, &gpu[i]);
+      }
    }
-    return cpu_buffer;
+    return i;
  }));
 }
 void BufferedReader::ShutdownImpl() {
  reader_->Shutdown();
-  buffer_.clear();
+  while (!position_.empty()) {
+    position_.pop();
+  }
 }
 void BufferedReader::StartImpl() {
  reader_->Start();
  AppendFutureToBatchSize();
 }
 void BufferedReader::ReadNextImpl(std::vector<framework::LoDTensor> *out) {
-  PADDLE_ENFORCE_EQ(buffer_.size(), buffer_size_);
+  if (position_.empty()) {
-  *out = buffer_.front().get();
+    out->clear();
-  buffer_.pop_front();
+    return;
-  AppendFuture();
+  }
+  size_t i = position_.front().get();
+  position_.pop();
+  if (i == -1UL) {
+    ReadNextImpl(out);
+    return;
+  }
+  *out = platform::is_gpu_place(place_) ? gpu_buffer_[i] : cpu_buffer_[i];
+  AppendFuture(i);
 }
 }  // namespace reader

--- a/paddle/fluid/operators/reader/buffered_reader.h
+++ b/paddle/fluid/operators/reader/buffered_reader.h
@@ -15,6 +15,7 @@
 #pragma once
 #include <list>
+#include <queue>
 #include <vector>
 #include "ThreadPool.h"
 #include "paddle/fluid/framework/reader.h"
@@ -36,7 +37,7 @@ class BufferedReader : public framework::DecoratedReader {
 private:
  void AppendFutureToBatchSize();
-  void AppendFuture();
+  void AppendFuture(size_t i);
 protected:
  void ShutdownImpl() override;
@@ -47,7 +48,10 @@ class BufferedReader : public framework::DecoratedReader {
  ThreadPool thread_pool_;
  platform::Place place_;
  const size_t buffer_size_;
-  std::list<VecFuture> buffer_;
+  std::queue<std::future<size_t>> position_;
+  std::vector<TensorVec> cpu_buffer_;
+  std::vector<TensorVec> gpu_buffer_;
 };
 }  // namespace reader