提交 · f38c2e5c772d24ab83b67034efbcc0de693d6198 · 机器未来 / Paddle

11 2月, 2022 3 次提交

Add profiler node tree implementation (#39316) · f38c2e5c

由 chenjian 提交于 2月 11, 2022

* add event node implementation

* modify profiler.stop interface

* fix according to review

* fix file mode

* modify class method name in event_node.cc

* modify LLONG_MAX to ULLONG_MAX

* fix ci error

* fix ci error

f38c2e5c

Z
Support different dtypes of inputs for elementwise ops (#38859) · bf305033
由 Zhang Ting 提交于 2月 11, 2022
```
* improve backward performance

* support different dtypes for elementwise ops
```
bf305033

【Pten】Auto-Generate InterMeta register (#39436) · 7d6096ff

由 zyfncg 提交于 2月 11, 2022

* fix code conflict

* generate inter_meta register

* clear cache

* just try

* add sign c++ api

* polish some code

7d6096ff

10 2月, 2022 18 次提交

F
[MLU] add mlu kernel for accuracy op (#39337) · 383de295
由 fwenguang 提交于 2月 10, 2022
```
* [MLU] add mlu kernel for accuracy op

* fix license format

* fix error message
```
383de295
F
[NPU] add reduce_min (#39019) · 2b8b16d7
由 furnace 提交于 2月 10, 2022
```
[NPU] add reduce_min
```
2b8b16d7

share MemOptVarInfos of external variables into cinn_launch subgraph (#39209) · 35b03e1c

由 TeFeng Chen 提交于 2月 10, 2022

* add a graph pass to share MemOptVarInfos of external variables into subgraph

* update pass name

* fix compile failed

* add share_mem_opt_info_to_subgraph_pass test

* share_mem_opt_info_to_subgraph_pass_test pass

* modify some codes for better style and more robust

* update cmake

35b03e1c

Added python-c code generation for final state Eager Dygraph (#39233) · 43f84d0f

由 Zhanlue Yang 提交于 2月 10, 2022

* Removed debug info

* Added automatic code generation for final state Eager Dygraph

* Modified backward yaml

* Added EagerUtils helper functions for final state CodeGen

* Adjusted CMakeFiles to support compilation for final state auto generated codes

* Added python-c code generation for final state Eager Dygraph

* Fixed minor issue

* Fixed yaml.load() method failure

* Fixed minor issues

* Refactored Python-C Attributes Parsing Functions

* Fixed minor issue with Python-C AddFunctions

* Fixed issues from merge

* Fixed merge issues

43f84d0f

Z

fix check error of ResetHolder (#39439) · f7a3389e
由 zyfncg 提交于 2月 10, 2022

f7a3389e
C

【PaddlePaddle Hackathon】31. Add Java frontend for Paddle Inference (#37162) · 238f3c8e
由 chenyanlann 提交于 2月 10, 2022

238f3c8e

move Masked select to pten (#39193) · e2ad433b

由 hong 提交于 2月 10, 2022

* move masked select cpu kernel

* add masked selected gpu kernel; test=develop

* fix bugs; test=develop

* bug fix; test=develop

* bug fix; test=develop

* add namespace to set mask array; test=develop

* fix bug; test=develop

* fix bugs; test=develop

* fix ddim bug; test=develop

* fix npu op bug; test=develop

* fix xpu dependecy bug; test=develop

* move kernel args to sig.cc; test=develop

e2ad433b

W

fix compile error on jetson (#39441) · 8b58862a
由 Wilber 提交于 2月 10, 2022

8b58862a
W
mkldnn layout issue fix (#39422) · 52d6b306
由 wenbin 提交于 2月 10, 2022
```
* mkldnn conv fix

* definetion
```
52d6b306
Z

Refactored Python-C Attributes Parsing Functions (#39328) · 32d79bb9
由 Zhanlue Yang 提交于 2月 10, 2022

32d79bb9
Z
【Pten】Refactor C++ API code-gen (#39408) · 7b70b792
由 zyfncg 提交于 2月 10, 2022
```
* refactor C++ API code-gen

* fix windows problem of C++ API
```
7b70b792

Modify the unsqueeze dimension of input data in conv1d NCL And NLC format (#38425) · 224bc511

由 crystal 提交于 2月 10, 2022

* optimize conv1d forward

* add conv opt

* Optimize memory copy

* delete share data with

* set num_filters=512

* add nlc optimize

* Optimize num_filter=512 data on A100 and V100

* Fix the workspace_size size setting of filter

224bc511

Z
[bf16] add bf16 kernel: squeeze & unsqueeze & stack (#39402) · 59c7aea5
由 zhangbo9674 提交于 2月 10, 2022
```
* add squeeze unsqueeze stack

* add unittest

* add cpu kernel
```
59c7aea5

[bf16] add bf16 kernel: dropout & reshape & slice (#39395) · e8ac7fc3

由 zhangbo9674 提交于 2月 10, 2022

* add dropout

* add reshape

* add slice

* refien slice unittest

* refine slice unittest

* add cpu bf16 kernel

e8ac7fc3

L
[pten] update isnan registration (#39419) · 14ed2f54
由 Leo Chen 提交于 2月 10, 2022
```
* update isnan registration

* fix compile
```
14ed2f54

[PTen] Add standard kernel suffix set (#39404) · c7c1db33

由 Chen Weihang 提交于 2月 10, 2022

* add standard_suffix_set_and_remove_reshape_with_xshape

* revert reshape change

* polish reduce name

c7c1db33

A

[PluggableDevice] custom kernel supports multi cpp_dtype registering (#39385) · 63d2333e
由 Aganlengzi 提交于 2月 10, 2022

63d2333e
Z
Fix code conflict of empty dev_api (#39430) · 2a5d858c
由 zyfncg 提交于 2月 10, 2022
```
* fix code conflict

* clear cache

* just try
```
2a5d858c

09 2月, 2022 19 次提交

Z
【Pten】Adjust the Empyt dev_api (#39143) · 9d4d0c3b
由 zyfncg 提交于 2月 09, 2022
```
* adjust the Empyt dev_api

* fix merge conflict

* fix sparse_utils_kernel
```
9d4d0c3b

Fix trace conflict (#39421) · 87f4a681

由 hong 提交于 2月 09, 2022

* add trace op

* bug fix

* bug fix; test=develop

* thrust bug fix; test=develop

* remove useless register; test=develop

* fix bug; test=develop

* update trace kernel; test=develop

* move kernel args to trace_sig; test=develop

* try to fix trace kernel conflict; test=develop

87f4a681

Z
Optimize performance of softmax_fwd when axis!=-1 (#38602) · 8e1b0204
由 Zhang Zheng 提交于 2月 09, 2022
```
* Optimize performence of softmax_fwd when axis!=-1

* use functor

* support hip

* fix functor
```
8e1b0204
L
[pten] fit pten for amp (#39403) · c5affb78
由 Leo Chen 提交于 2月 09, 2022
```
* fit pten for amp

* fix typo
```
c5affb78

[Paddle-Inference] rebuild matmul pass: trt and gpu_cpu (#39369) · db7d129e

由 Wangzheee 提交于 2月 09, 2022

* rebuild matmul pass: trt and gpu_cpu

* rebuild matmul pass: trt and gpu_cpu

* rebuild matmul pass: trt and gpu_cpu

* rebuild matmul pass: trt and gpu_cpu

db7d129e

N

Replace EigenBroadcast with ElementwiseBroadcast in ReduceGrad (#39255) · 772be4f5
由 niuliling123 提交于 2月 09, 2022

772be4f5
石

infershaped autogen (PR #1 ), test=develop (#39405) · b3e049f8
由石晓伟提交于 2月 09, 2022

b3e049f8
[MLU] add mlu kernel for c_comm_init op (#39364) · 1bd7a143
由 mhhhh1 提交于 2月 09, 2022

1bd7a143
F

[MLU] add gaussian_random mlu kernel (#39338) · c35b4b8e
由 fwenguang 提交于 2月 09, 2022

c35b4b8e
F

[mlu] add mlu kernel for momentum op (#39331) · f8ba12e5
由 fwenguang 提交于 2月 09, 2022

f8ba12e5
F

[mlu] add mlu kernel for elementwise_add (#39313) · d47a511a
由 fwenguang 提交于 2月 09, 2022

d47a511a

Replace EagerTensor with Tensor (#39376) · 945a3ce9

由 Jiabin Yang 提交于 2月 09, 2022

* merge legacy to fluid

* Remove legacy code

* Remove legacy code

* Remove DataType test

* Using Tensor directly instead of using EagerTensor

* support gradient_accumulation

* make test_imperative_lod_tensor_to_selected_rows longer

* make test_imperative_lod_tensor_to_selected_rows longer

945a3ce9

Add a Sparse Op to_dense (#39335) · aca86470

由 zhangkaihuo 提交于 2月 09, 2022

* implement AllocateFrom

* dense_to_sparse_coo

* optimize unit testing; support rocm

* 1. delete fluid related header file
2. update the copyright

* fix hipMemcpy

* update dense_to_sparsecoo

* add namespace sparse

* sparse_csr_to_dense

* test to_sparse_coo: csr_to_coo

* fix writing error

* to_sparse_csr: dense_to_sparse_csr and sparse_coo_to_csr

* fix check shape

* fix unit test

* to_dense: sparse_coo_to_dense, sparse_csr_to_dense

* replace CUDADeviceContext by GPUContext

aca86470

Y

Rename partial function name TensorReduceFunctorImpl to TensorReduceImpl. (#39387) · 6354f81c
由 Yiqun Liu 提交于 2月 09, 2022

6354f81c

Move trace op to pten (#39227) · d7dddf94

由 hong 提交于 2月 09, 2022

* add trace op

* bug fix

* bug fix; test=develop

* thrust bug fix; test=develop

* remove useless register; test=develop

* fix bug; test=develop

* update trace kernel; test=develop

* move kernel args to trace_sig; test=develop

d7dddf94

C
[CustomOp] Fix slice bug of custom op (#39393) · 91b074a2
由 Chen Weihang 提交于 2月 09, 2022
```
* fix slice bug of cusstom op

* add offset in check
```
91b074a2
L

[pten] fix typo, muliply_raw -> multiply_raw (#39391) · f810d755
由 Leo Chen 提交于 2月 09, 2022

f810d755
C

move stream into pten (#39392) · 266955a9
由 Chen Weihang 提交于 2月 09, 2022

266955a9

update basic infrastructure (#39383) · b12e7a17

由 hong 提交于 2月 09, 2022

* update basic infrastructure; support string,  suport vecotr<int>, add tensor args type index; test=develop

* remove useless code; test=develop

* fix bug; test=develop

* polish code; test=develop

b12e7a17

机器未来 / Paddle 与 Fork 源项目一致

机器未来 / Paddle
与 Fork 源项目一致