fix occupied 0 device memory bug (#28771)

b969c32a · Chen Weihang · GitHub · d6aee759 · b969c32a
隐藏空白更改
内联并排

Showing with 6 addition and 0 deletion

paddle/fluid/operators/reader/buffered_reader.cc paddle/fluid/operators/reader/buffered_reader.cc +6 -0

未找到文件。
--- a/paddle/fluid/operators/reader/buffered_reader.cc
+++ b/paddle/fluid/operators/reader/buffered_reader.cc
@@ -104,6 +104,12 @@ void BufferedReader::ReadAsync(size_t i) {
        std::vector<void *> cuda_pinned_ptrs;
        cuda_pinned_ptrs.reserve(cpu.size());
        platform::RecordEvent record_event("BufferedReader:MemoryCopy");
+        // NODE(chenwehiang): When we use CUDAPinned Memory, we need call
+        // cudaHostAlloc, that is a CUDA API, calling CUDA API need load
+        // cuda lib into device, it will cost hundreds of MB of GPU memory.
+        // If we don't set Device here, which will use CUDAPlace(0) default.
+        platform::SetDeviceId(
+            BOOST_GET_CONST(platform::CUDAPlace, place_).device);
        for (size_t i = 0; i < cpu.size(); ++i) {
          if (platform::is_cpu_place(cpu[i].place())) {
            cuda[i].Resize(cpu[i].dims());