提交 · 1abfc8dda8501e37c6f7ffd82d0dabc616563fba · PaddlePaddle / Paddle

24 2月, 2022 8 次提交

Refactored GradNodeAccumulation data structure and behaviour (#39526) · 1abfc8dd

由 Zhanlue Yang 提交于 2月 24, 2022

* Refactored GradNodeAccumulation data structure and behaviour

* Fixed CI issues

* Fix compilation issues

* Fixed minor issues

* Reverted changes for intermediate and OverwriteOutput

* fixed minor issue

* Fixed code format issues

* Fixed CI-Coverage issue

* Fixed CI issues

1abfc8dd

A
[Phi] Fix XPU OP segmentation Fault problem (#39827) · 7a7a7cad
由 Aurelius84 提交于 2月 24, 2022
```
* [Phi] Fix XPU OP segmentation Fault problem

* fix cast_op_xpu in kunlun1

* fix cast_op_xpu in kunlun1
```
7a7a7cad

[pten] add optional type for infermeta (#39848) · 94b31f90

由 chentianyu03 提交于 2月 24, 2022

* modify infershape by args_def

* add optional type for infermate

* add optional type for infermate

* add optional type for infermate

* support scalar type

* change OptionalInputAt function to none template

* support phi::DataType

94b31f90

J
Fix for split op in BF16 inference (#39548) · 75f91ce4
由 jakpiase 提交于 2月 24, 2022
```
* Fix for split bf16 inference

* added test for pass

* changes after review
```
75f91ce4
H
Optimize where_op and abs_grad_op by the elementwise interface (#39609) · c9699556
由 huangxu96 提交于 2月 24, 2022
```
* Optimize the where_op by the elementwise_op funtion

* Modified where_op & abs_grad_op by elementwise interface
```
c9699556

[Eager] save load testcase (#39571) · 6b5749eb

由 wanghuancoder 提交于 2月 24, 2022

* eager, test=develop

* fix bug, test=develop

* eager, test=develop

* merge legacy to fluid

* eager, test=develop

* eager, test=develop

* Refactor TensorAdd func by template and remove gradient_accumulation in eager

* Remove needless target name

* eager, test=develop

* eager, test=develop

* Use overload instead of template

* Remove legacy code

* Remove legacy code

* selectedrows, test=develop

* Remove DataType test

* eager, test=develop

* eager, test=develop

* support gan, test=develop

* Using Tensor directly instead of using EagerTensor

* support gradient_accumulation

* make test_imperative_lod_tensor_to_selected_rows longer

* make test_imperative_lod_tensor_to_selected_rows longer

* refine code

* ptb, test=develop

* Rename all EagerTensor to Tensor

* Rename some EagerTensor to Tensor

* rename EagerTensor to EagerVariable

* eager, test=develop

* eager, test=develop

* eager, test=develop

* eager, test=develop

* add more test

* eager, test=develop

* Support copiable selected rows and merge develop

* save load, eager, test=develop

* save load, eager, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* revert static_runner, test=develop

* EagerTensor to Tensor, test=develop

* refine, test=develop

* refine, test=develop

* clear grad, test=develop

* merge, develop

* merge, develop

* merge, test=develop

* merge, test=develop
Co-authored-by: NJiabinYang <360788950@qq.com>
Co-authored-by: NWeilong Wu <veyron_wu@163.com>

6b5749eb

N

Fix a bug in IndexKernel out-of-memory (#39867) · 2136bd42
由 niuliling123 提交于 2月 24, 2022

2136bd42
L
optimize performance of lookup_table_v2_op (#39856) · d6038c22
由 Li Min 提交于 2月 24, 2022
```
* optimize block config  and fp16 atomicAdd perf for lookup_table_v2_grad.
```
d6038c22

23 2月, 2022 18 次提交

S
Add ProcessGroupNCCL for distributed training (#39737) · 0b205817
由 ShenLiang 提交于 2月 23, 2022
```
* add processgroup_nccl
```
0b205817
Z

Support dispensable inputs for eager final state codegen (#39743) · ca11a0e5
由 Zhanlue Yang 提交于 2月 23, 2022

ca11a0e5
S
move trunc_op's infere shape to phi (#39772) · 95280a36
由 Sing_chan 提交于 2月 23, 2022
```
* move trunc_op's infere shape

* modify according to risheng's comment
```
95280a36
L
[phi] move randperm to phi (#39816) · 30992ea0
由 Leo Chen 提交于 2月 23, 2022
```
* move randperm to phi

* fix npu

* fix memory::Copy
```
30992ea0
Y

[Phi] move flip op to phi kernel (#39822) · ad294a81
由 Yang 提交于 2月 23, 2022

ad294a81
C
[Phi] Polish default signature attr and output select impl (#39810) · 64ed92bd
由 Chen Weihang 提交于 2月 23, 2022
```
* polish default sig impl

* revert dispenable out
```
64ed92bd
[MLU] add cncl parallel context and mlu resource pool (#39803) · 6241913b
由 mhhhh1 提交于 2月 23, 2022
```
* [MLU] add cncl parallel context and mlu resource pool

* [MLU] fix the cncl_context_test
```
6241913b
change CUDA implementaion of bernoulli OP (#39732) · b9675acc
由 zhouweiwei2014 提交于 2月 23, 2022
```
* change CUDA implementaion of bernoulli OP

* fix CI
```
b9675acc
R

[phi] migrate atan2_op into phi (#39806) · b089e7cd
由 ronnywang 提交于 2月 23, 2022

b089e7cd

[phi] move unbind to phi (#39789) · dba694f4

由 Leo Chen 提交于 2月 23, 2022

* move unbind to phi

* revert infer shape

* add header file

* move concat_and_split to phi

dba694f4

[KP] Add elementwise add xpu after phi, test=develop (#39787) · 1a1a2ce8

由 Liu-xiandong 提交于 2月 23, 2022

* [KP] Add elementwise add xpu, test=develop

* modify the File Permissions

* modify the copyright time

* modify code style

* modify code style

1a1a2ce8

A
[Phi] Migrate lable_smooth_op into Phi (#39796) · b7bcd0f6
由 Aurelius84 提交于 2月 23, 2022
```
* [Phi] Migrate lable_smooth_op into Phi

* fix PT->PD
```
b7bcd0f6
A
[IPU] update inference demos (#39792) · 24f55aed
由 Allen Guo 提交于 2月 23, 2022
```
* update inference part

* restore white space
```
24f55aed

[Eager] Support Eager mode for some model testcase (#39248) · abe232d8

由 wanghuancoder 提交于 2月 23, 2022

* eager, test=develop

* fix bug, test=develop

* eager, test=develop

* merge legacy to fluid

* eager, test=develop

* eager, test=develop

* Refactor TensorAdd func by template and remove gradient_accumulation in eager

* Remove needless target name

* eager, test=develop

* eager, test=develop

* Use overload instead of template

* Remove legacy code

* Remove legacy code

* selectedrows, test=develop

* Remove DataType test

* eager, test=develop

* eager, test=develop

* support gan, test=develop

* Using Tensor directly instead of using EagerTensor

* support gradient_accumulation

* make test_imperative_lod_tensor_to_selected_rows longer

* make test_imperative_lod_tensor_to_selected_rows longer

* refine code

* ptb, test=develop

* Rename all EagerTensor to Tensor

* Rename some EagerTensor to Tensor

* rename EagerTensor to EagerVariable

* eager, test=develop

* eager, test=develop

* eager, test=develop

* eager, test=develop

* add more test

* eager, test=develop

* Support copiable selected rows and merge develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* clear grad, test=develop

* merge, develop

* merge, develop
Co-authored-by: NJiabinYang <360788950@qq.com>
Co-authored-by: NWeilong Wu <veyron_wu@163.com>

abe232d8

[bf16] add bf16 kernel: elementwise_div (#39602) · ca4df333

由 zhangbo9674 提交于 2月 23, 2022

* add elementwise_div

* refine rocm

* refine code

* refine op register

* solve conflict

* refine unittest

* refine unittest precision

* add rocm

ca4df333

Update record interface using part3 (#39695) · 1fcaab45

由 chenjian 提交于 2月 23, 2022

* fix RecordEvent interface

* modify default level to 4

* update interface use

* add const default trace level

* update record event interface using

* update record event interface using

* update record event interface using

* update operator.cc

* update part2

* update part1

* update part3

* fix include profiler.h header in ps server

* fix include profiler.h header in ps server

* fix profiler.h header

* fix profiler.h header

* fix merge buf

* update

* fix bug

* fix bug

1fcaab45

Z
Supported intermediate outputs for eager final state codegen (#39767) · 94243789
由 Zhanlue Yang 提交于 2月 23, 2022
```
* Supported intermediate outputs for eager final state codegen

* Added validation check for intermediate tensors
```
94243789

[PHI] Remove fill_any_like kernel register in fluid (#39807) · 69e9e9d5

由 zyfncg 提交于 2月 23, 2022

* remove fill_any_like kernel in fluid and fix data transform bug

* support scalar in infershpe

* recover infershape in fill_and_like

69e9e9d5

22 2月, 2022 14 次提交

A
[custom kernel]Delete useless and upgrade (#39791) · edc3ba13
由 Aganlengzi 提交于 2月 22, 2022
```
* [custom kernel]Delete useless

* change RegType enum names

* mod notes

* merge

* update
```
edc3ba13

Move real and imag op to phi (#39777) · 345cc8fa

由 From00 提交于 2月 22, 2022

* Move Real OP to phi

* Move Imag OP to phi

* Move Real and Imag InferShape to phi

* Move Real and Imag to complex_kernel

* Change PT_REGISTER_XXX to PD_REGISTER_XXX

345cc8fa

J

added round fwd onednn kernel (#39653) · 74c0bc1c
由 jakpiase 提交于 2月 22, 2022

74c0bc1c
L
Add the implementation of TCP Store (#39384) · b95cd3b7
由 lilong12 提交于 2月 22, 2022
```
* add tcp_socket and tcp_store
```
b95cd3b7
F
delete gather_ut skip_case (#39657) · da43e065
由 feng_shuai 提交于 2月 22, 2022
```
* delete gather_ut skip_case

* add trt version limit
```
da43e065

Adapt to batch_norm_grad op and add align function in roi_align op for kunlun (#39685) · f33ae206

由 Leo Guo 提交于 2月 22, 2022

* Adapt to batch_norm_grad op and add align function in
roi_align op for kunlun, *test=kunlun

* Adapt to batch_norm, batch_norm_grad op api for kunlun, and add unit-tests of batch_norm, roi_align. *test=kunlun

f33ae206

change Vector to std::vector and provide MixVector class as a helper … (#39559) · 728c0624

由 xiongkun 提交于 2月 22, 2022

* change Vector to std::vector and provide MixVector class as a helper wrapper class

* solve the multi-gpu hang problem

* remove the duplicate template instantialize

* Copy vector to cpu

* add CopyToCPU

* xxx

* final version: fix the problem of all reduce

* remove mixvector dependence

* fix

* merge

* fix code

* fix by CI

728c0624

fix bug in new the_one_ps (#39505) · d56a0a1b

由 wangguanqun 提交于 2月 22, 2022

* fix benchmark and communicator config

* fix bugs of the_one_ps

* multi program and fix bug in optimizer

* multi program in the_one_ps

* public commcontext

d56a0a1b

[Phi] Migrate unfold_op into phi (#39778) · 1aa67778

由 Aurelius84 提交于 2月 22, 2022

* [Phi] Migrate unfold_op into phi

* fix im2col CPUContext template instantial

* fix unfold_op.h header include problem

* fix unittest

* fix PT->PD

1aa67778

R

[CustomRuntime] fix CustomDeviceContext (#39766) · 60fc555e
由 ronnywang 提交于 2月 22, 2022

60fc555e

Update profiler (#39779) · c5d15655

由 liutiexing 提交于 2月 22, 2022

* add align for WorkQueue

* add spinlock

* merge develop

* merge

* Add EventsWaiter

* Revert "Add EventsWaiter"

This reverts commit e206173aa9be7401b83a53581627bfaf557c8fb2.

* add log for Executor

* update the profiler
Co-authored-by: Nliutiexing <liutiexing@google.com>

c5d15655

T

build_cinn_pass: fix bug because of output control var (#39782) · 62ae5f62
由 TeFeng Chen 提交于 2月 22, 2022

62ae5f62
H

update unittests for nearest_interp_v2_op_xpu: 'sync' from gpu. test=kunlun (#39768) · e89bf25b
由 houj04 提交于 2月 22, 2022

e89bf25b
W
[Paddle-Inference] fix pass and convert_op for preln_ernie (#39733) · 574f3402
由 Wangzheee 提交于 2月 22, 2022
```
* fix pass and convert_op for preln_ernie and add preln_ernie'flag in pass
```
574f3402

PaddlePaddle / Paddle 大约 1 年 前同步成功

PaddlePaddle / Paddle
大约 1 年前同步成功