提交 · 25f80fd304297cab8c20b84d4a207e53f3b2b4f6 · PaddlePaddle / Paddle

12 1月, 2021 1 次提交

Fix/distributed proto (#29981) · 25f80fd3

由 tangwei12 提交于 1月 12, 2021

* rename sendrecv.proto to namespace paddle.distributed

* split ps with distributed

25f80fd3

24 12月, 2020 1 次提交

[Feature] one ps (3/4) (#29604) · 032414ca

由 tangwei12 提交于 12月 24, 2020

* oneps (3/4)
Co-authored-by: NMrChengmo <cmchengmo@163.com>
Co-authored-by: Nmalin10 <malin10@baidu.com>
Co-authored-by: Nchengmo <chengmo@baidu.com>

032414ca

27 11月, 2020 1 次提交
- Y
  
  add user_define_dump (#28596) · 545df287
  由 yaoxuefeng 提交于 11月 27, 2020
  
  545df287
06 8月, 2020 1 次提交

add heter ps mode (#25682) · 0cb60c70

由 Thunderbrook 提交于 8月 06, 2020

* add heter ps mode

* code style
test=develop

* add with_pslib
test=develop

* unitest
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* test monitor
test=develop

* prepare trainer
test=develop

* code style
test=develop

0cb60c70

03 8月, 2020 1 次提交

fix dump, fix cvm check (#25400) · d11c140e

由 xujiaqi01 提交于 8月 03, 2020

* fix dump, fix cvm check
test=develop

* fix
test=develop

* fix
test=develop

* fix
test=develop

d11c140e

19 5月, 2020 1 次提交

Random Dump (#24477) · 0ec3a42e

由 hutuxian 提交于 5月 19, 2020

* Refactor code for dump_field & dump_param: abstracting the common function in base class.
* Support dump randomly & random with lineid
* Support specify the random interval, which avoids printing too much logs.

0ec3a42e

17 2月, 2020 1 次提交
- 1
  
  support dumping params/grads in transpiler mode (#22490) · 00594c1c
  由 123malin 提交于 2月 17, 2020
  
  00594c1c
17 1月, 2020 1 次提交
- T
  integrated HALF_ASYNC to communicator (#21869) · 82bc814a
  由 tangwei12 提交于 1月 17, 2020
```
* add half_async in the communicator
* fix DistributedStrategy
```
  82bc814a
24 11月, 2019 1 次提交

Refactor fetch handler (#21264) · 691ced87

由 Dong Daxiang 提交于 11月 24, 2019

* fix fetch handler problem and refactor
when a user define FetchHandler class, he or she should initialize a handler
with variable dict. the key of a variable dict is a user defined name,
the value of a variable dict is a Varaible generated from python API.

For each fetching, a user should implement handler function in which
fetched_result_dict will be available and the user can access the fetched value
with user defined keys.

691ced87

07 10月, 2019 1 次提交
- T
  trainer from dataset fetch targets (#19760) · c9139c3d
  由 tangwei12 提交于 10月 07, 2019
```
add executor.FetchHandler for train/infer from the dataset
```
  c9139c3d
30 8月, 2019 1 次提交

add thread scope stat accurate metrics test=develop (#19480) · 10ca3f96

由 yaoxuefeng 提交于 8月 30, 2019

* add thread scope stat accurate metrics test=develop

* fix style

* fix style

* fix style

* fix style test=develop

* fix style test=develop

* fix style test=develop

* fix style test=develop

* fix style test=develop

* fix style test=develop

* fix style test=develop

* fix conflict

* fix style

* fix style test=develop

* fix error test=develop

* fix error test=develop

10ca3f96

10 8月, 2019 1 次提交

Datafeed support reading to cuda place directly. (#19071) · 5a80cc84

由 hutuxian 提交于 8月 10, 2019

* add a place field in DataFeed to denote which place it will feed data to.
* abstract the copy process in CopyToFeedTensor function
* add UT for float32 type and for CUDAPlace

5a80cc84

21 6月, 2019 1 次提交

dataset (#17973) · 3f8031e2

由 jiaqi 提交于 6月 21, 2019

(1) use channel instead of vector/BlockingQueue in Dataset，to keep same with existing implementation, and make code more readable and flexible (dataset single output channel or multi output channel). one previous memory out of limit problem is cause by not release memory after training.
(2) add Record because MultiSlotType costs too much memory (80B)，fix memory out of limit problem.
(3) add Channel, Archive in paddle/fluid/framework
(4) change dataset from shared_ptr to unique_ptr in pybind
(5) move create/destroy readers from trainer to dataset
(6) move shuffle from datafeed to dataset. dataset holds memory, datafeed is only for load data and feed data to network.
(7) fix thread num bug of Dataset when filelist size < thread num
(8) support set_queue_num in InMemoryDataset

3f8031e2

29 3月, 2019 15 次提交
- D
  move root_scope->DropKids() into Finalize() so that we do not have to drop all the kids · ba15d6b1
  由 dongdaxiang 提交于 3月 24, 2019
```
test=develop
```
  ba15d6b1
- D
  
  refine print fetch list · 6bf796df
  由 dongdaxiang 提交于 3月 21, 2019
  
  6bf796df
- X
  
  support multi dataset && add init model && fix bug · a5b1a0e1
  由 xujiaqi01 提交于 3月 20, 2019
  
  a5b1a0e1
- D
  add comment for MPI Symetric role maker · 2644b886
  由 dongdaxiang 提交于 3月 14, 2019
```
test=develop
```
  2644b886
- X
  
  fix bug && add DestroyReaders in trainer · 39449ba0
  由 xujiaqi01 提交于 3月 13, 2019
  
  39449ba0
- X
  
  add dataset factory && fix style · ecfc7df9
  由 xujiaqi01 提交于 3月 13, 2019
  
  ecfc7df9
- D
  
  fix data reading bugs in api, add VLOG(3) log for setup · b66f0074
  由 dongdaxiang 提交于 3月 10, 2019
  
  b66f0074
- D
  
  make Dataset* as an argument · b415ec27
  由 dongdaxiang 提交于 3月 09, 2019
  
  b415ec27
- X
  
  modify c++ and python dataset related code & fix bug · dd67ad08
  由 xjqbest 提交于 3月 09, 2019
  
  dd67ad08
- D
  
  add RunFromDataset in executor · 24863897
  由 dongdaxiang 提交于 3月 08, 2019
  
  24863897
- D
  
  add run from dataset in executor. · 08c25995
  由 dongdaxiang 提交于 3月 06, 2019
  
  08c25995
- D
  refine VLOG in fleet_wrapper.h · 6de9ebc6
  由 dongdaxiang 提交于 2月 03, 2019
```
test=develop
```
  6de9ebc6
- D
  
  fix class register problem · 39014b9f
  由 dongdaxiang 提交于 2月 02, 2019
  
  39014b9f
- D
  refine device_worker and trainer code · c1650120
  由 dongdaxiang 提交于 2月 02, 2019
```
test=develop
```
  c1650120
- D
  add dist_multi_trainer for distributed training, add trainer_factory and... · 855bf579
  由 dongdaxiang 提交于 1月 28, 2019
```
add dist_multi_trainer for distributed training, add trainer_factory and device_worker_factory so that we can easily extend new training mode, add pull dense worker which is a singleton for parameter fetching
```
  855bf579

PaddlePaddle / Paddle 大约 1 年 前同步成功

PaddlePaddle / Paddle
大约 1 年前同步成功