提交 · 032414ca2a0467d012fe5ad880f797805b6822b3 · BaiXuePrincess / Paddle

24 12月, 2020 1 次提交

[Feature] one ps (3/4) (#29604) · 032414ca

由 tangwei12 提交于 12月 24, 2020

* oneps (3/4)
Co-authored-by: NMrChengmo <cmchengmo@163.com>
Co-authored-by: Nmalin10 <malin10@baidu.com>
Co-authored-by: Nchengmo <chengmo@baidu.com>

032414ca

23 12月, 2020 1 次提交

heter box (#29734) · 09b6e719

由 Thunderbrook 提交于 12月 23, 2020

* 　add heter box

* add trainer, worker, wrapper...

* format

* for ci

* format

* remove boost get

* boost & copyright

* rename

* 　rename

* format

* format

* format
Co-authored-by: Nyaoxuefeng6 <yaoxuefeng@baidu.com>

09b6e719

02 12月, 2020 1 次提交

Add pure fp16 training with master weights. (#27712) · be3777a5

由 Zhen Wang 提交于 12月 02, 2020

* add the weight decay func for the momentum op

* Add the multi_precision function in Momentum Optimizer.

* Make sure that the initial value of master weights are same with the fp16 weights.

* add static loss scaling.

* add the rescale_grad function in the pure fp16 training.

* use the original momentum updating method.

* Polish some codes, such as variable names.

* add docstring for apis.

* update the var creation details of _create_master_weight.

* not modify codes about imperative momentum updating.

* Fix the error of test_dist_sparse_tensor_load_momentum UT.

* add unit test for multi precision fp16 training.

* add more unit tests for CI.

* Use lower threshold values for allclose comparing in test_multi_precision_fp16_train UT.

* For CI Coverage Checking.

be3777a5

30 11月, 2020 2 次提交
- 1
  Update ps gpu (#29209) · b5c63423
  由 123malin 提交于 11月 30, 2020
```
* fix paramete prefetch & device guard
Co-authored-by: NMrChengmo <cmchengmo@163.com>
Co-authored-by: Nchengmo <chengmo@baidu.com>
```
  b5c63423
- 1
  test=develop, rm pathlib (#28658) · 92817f80
  由 123malin 提交于 11月 30, 2020
```
* test=develop, rm pathlib
```
  92817f80
27 11月, 2020 1 次提交
- Y
  
  add user_define_dump (#28596) · 545df287
  由 yaoxuefeng 提交于 11月 27, 2020
  
  545df287
24 11月, 2020 1 次提交

Upgrade string literals to raw string (#28989) · 3815d7aa

由 Leo Chen 提交于 11月 24, 2020

* upgrade comment string to raw string

* fix string in

* fix string with ' '

* revert update on comments

* upgrade only necessary

* fix sample code checker

* fix comments with '''

3815d7aa

23 11月, 2020 1 次提交

support ps-gpu (#28752) · 0073f9bd

由 Thunderbrook 提交于 11月 23, 2020

* ps gpu transpile

* ps gpu

* remove op

* gps trainer

* local ps

* add macro

* HeterBox

* def cuda

* tab

* code style

* style

Co-authored-by: Thunderbrook <a754913769#163.com>

0073f9bd

28 10月, 2020 1 次提交
- C
  【Paddle.Fleet】Fix fleetrun heter (#28252) · 4dc8c44b
  由 Chengmo 提交于 10月 28, 2020
```
* fix fleetrun heter ps on paddlecloud
```
  4dc8c44b
19 10月, 2020 1 次提交
- M
  fleet support paddle.optimzier (#28026) · 55098b97
  由 MRXLT 提交于 10月 19, 2020
```
fleet support paddle.optimzier

* bug fix

* fix fleet_base

* bug fix

* fix coverage
```
  55098b97
15 10月, 2020 1 次提交

【paddle.fleet】geo send sparse optimize (#27719) · aa3b4ed7

由 123malin 提交于 10月 15, 2020

* test=develop, fix geo sgd communicator

* test=develop, gloo_init_method

* test=develop, bug fix for gloo http_init

aa3b4ed7

14 10月, 2020 2 次提交

C
【paddle.fleet】fix sparse load (#27680) · 328cb289
由 Chengmo 提交于 10月 14, 2020
```
* add sparse tensor load method
```
328cb289

Multi task (#26002) · 5a83496c

由 zhang wenhui 提交于 10月 14, 2020

* add multitask

* add multitask, test=develop

* fix code style, test=develop

* add partail push dense, test=develop

* fix has_kay in py3, test=develop

* fix, test=develop

* fix, test=develop

* fix, test=develop

5a83496c

13 10月, 2020 1 次提交

【paddle.fleet】Update fleetrun & ps-heter (#27472) · c5f2802d

由 Chengmo 提交于 10月 13, 2020

* refine fleetrun.ps_launch

* update fleet run for multi device support

* ps_graph support ps-gpu

* fix heter save

* add heter save unittest

* fix unittest & simple code

* update fleetrun

* fix fleetrun

* fix launch barrier

* fix role maker

* add paddlecloud rolemaker unittest

* rename heter_worker_device_guard

c5f2802d

29 9月, 2020 2 次提交
- 1
  test=develop, optimize geo communicator (#26857) · cc780b19
  由 123malin 提交于 9月 29, 2020
```
* test=develop, optimize geo communicator 
```
  cc780b19
- L
  Initialize gloo for low level collective apis (#27672) · bbc2add7
  由 lilong12 提交于 9月 29, 2020
```
* add gloo initializer, test=develop
```
  bbc2add7
28 9月, 2020 4 次提交
- Y
  
  【paddle.distributed.fleet】add data_generator in distributed.fleet.dataset (#27345) · 78014059
  由 yaoxuefeng 提交于 9月 28, 2020
  
  78014059
- L
  
  Revert "Initialize gloo for low level collective apis (#27356)", test=document_fix (#27665) · 36c04102
  由 lilong12 提交于 9月 28, 2020
  
  36c04102
- 1
  test=develop, rm netifaces (#27581) · 68223077
  由 123malin 提交于 9月 28, 2020
```
* test=develop, rm netifaces
```
  68223077
- L
  Initialize gloo for low level collective apis (#27356) · fa73e4a2
  由 lilong12 提交于 9月 28, 2020
```
* add gloo initializer, test=develop
```
  fa73e4a2
23 9月, 2020 1 次提交

large scale kv speedup (#26510) · bc5f0246

由 tangwei12 提交于 9月 23, 2020

* rename communicator meet->BatchesCounter

* fix parame recv for sparse

* geo sparse init from pserver

* optimize init from pserver

* add large scale optimizer fuse(SGD/ADAM)

* rectification init_worker and exe.run startup program

bc5f0246

20 9月, 2020 1 次提交

【paddle.fleet】Fix/role maker api fix (#27326) · d6b54de4

由 tangwei12 提交于 9月 20, 2020

* fix fleet util and gloo

* fix worker endpoints

* fix

* fix UT

* fix gloo

* fix gloo

* update gloo

* update gloo

* update gloo

* update gloo

* update gloo

* fix gloo wrapper for hdfs

* add file gloo and UT

* fix UT

* fix UT

* fix UT

* hide public method of RoleMaker

* fix UT

* GPU fleetrun support gloo

* parameterserver fleetrun support gloo

* add UT

* add UT

* fix UT

* fix get server endpoint

* fix get server endpoint

* fix UT

* hide public method of rolemaker

* hide public method of rolemaker

* hide public method of rolemaker

* Update test_fleet_rolemaker_new.py

* hide public method of rolemaker

* hide public method of rolemaker

d6b54de4

16 9月, 2020 1 次提交
- G
  
  Cleanup redundant code files (#27319) · 11bcf0e2
  由 gongweibao 提交于 9月 16, 2020
  
  11bcf0e2
08 9月, 2020 1 次提交
- 1
  【paddle.fleet】parameter_server_optimizer support auto_strategy (#26838) · f2d68d3e
  由 123malin 提交于 9月 08, 2020
```
* test=develop, add ps auto
```
  f2d68d3e
04 9月, 2020 1 次提交
- C
  fix Heter Ps multi thread (#26876) · c4846196
  由 Chengmo 提交于 9月 04, 2020
```
* fix heter-ps multi thread
```
  c4846196
02 9月, 2020 1 次提交
- C
  supplement bug fix of parameter server (#26217) · d0962abd
  由 Chengmo 提交于 9月 02, 2020
```
* fix fluid.embedding
```
  d0962abd
31 8月, 2020 1 次提交
- Y
  
  fleet add save with whitelist test=develop (#23376) · a47d92d8
  由 yaoxuefeng 提交于 8月 31, 2020
  
  a47d92d8
30 8月, 2020 1 次提交
- C
  【paddle.fleet】Support Heter Parameter Server (#25998) · 7f2aa2db
  由 Chengmo 提交于 8月 30, 2020
```
* Support Heter Parameter Server
```
  7f2aa2db
21 8月, 2020 1 次提交
- T
  fix decay global counter (#26387) · 8e4ed662
  由 tangwei12 提交于 8月 21, 2020
```
* fix decay global counter

* remove unused print, test=distp0
```
  8e4ed662
19 8月, 2020 1 次提交
- C
  Fix ps gpu (#26218) · eeeef957
  由 Chengmo 提交于 8月 19, 2020
```
* support ps-gpu
```
  eeeef957
13 8月, 2020 1 次提交
- D
  【paddle.fleet】paddle.fleet -> paddle.distributed.fleet. (#26186) · 50a5bcfc
  由 Dong Daxiang 提交于 8月 13, 2020
```
* move paddle.fleet to paddle.distributed.fleet
```
  50a5bcfc
10 8月, 2020 1 次提交
- G
  Fix test_hdfs bug. (#26068) · a7c52100
  由 gongweibao 提交于 8月 10, 2020
```
* fix merge3 test=develop
```
  a7c52100
08 8月, 2020 1 次提交
- G
  
  Save checkpoint automatically (#25917) · 0067a2e4
  由 gongweibao 提交于 8月 08, 2020
  
  0067a2e4
07 8月, 2020 2 次提交

T
Fix/large scale fix (#25999) · 3755564a
由 tangwei12 提交于 8月 07, 2020
```
* fix large scale KV 
* fix single training using async ssa graph
```
3755564a

【paddle.fleet】fleet_util move to paddle.fleet (#25805) · 2191a083

由 123malin 提交于 8月 07, 2020

* test=develop,test=document_fix, remove the out args

* fleet_util move to paddle.fleet
Co-authored-by: NWuHaobo <wuhaobo1994@gmail.com>
Co-authored-by: Ntangwei12 <tangwei12@baidu.com>

2191a083

06 8月, 2020 1 次提交

add heter ps mode (#25682) · 0cb60c70

由 Thunderbrook 提交于 8月 06, 2020

* add heter ps mode

* code style
test=develop

* add with_pslib
test=develop

* unitest
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* code style
test=develop

* test monitor
test=develop

* prepare trainer
test=develop

* code style
test=develop

0cb60c70

03 8月, 2020 1 次提交
- G
  
  fix stratege.set_program_config (#25864) · 6773fcc1
  由 gentelyang 提交于 8月 03, 2020
  
  6773fcc1
30 7月, 2020 1 次提交

Integrated Trainer of Parameter Server (API add... · caa90a65

由 tangwei12 提交于 7月 30, 2020

Integrated Trainer of Parameter Server (API add `fluid.contrib.layers.sparse_embedding` only) (#22957)

* Integrated Trainer of Parameter Server

caa90a65

07 7月, 2020 1 次提交
- G
  
  Fix typo in interface. (#24779) · 80f1c507
  由 gongweibao 提交于 7月 07, 2020
  
  80f1c507
04 6月, 2020 1 次提交

add mock barrier all (#24786) · 3016a4ac

由 xujiaqi01 提交于 6月 04, 2020

* add mock barrier all
test=develop

* fix
test=develop

* fix
test=develop

* fix
test=develop

3016a4ac

BaiXuePrincess / Paddle 与 Fork 源项目一致

BaiXuePrincess / Paddle
与 Fork 源项目一致