提交 · 498dbfa8c55af592b74eaee543a5dace8531f068 · PaddlePaddle / Paddle

11 11月, 2021 1 次提交
- J
  
  - Enable FC int8 (#37078) · 498dbfa8
  由 Jacek Czaja 提交于 11月 10, 2021
  
  498dbfa8
10 11月, 2021 14 次提交
- J
  Added stack FP32 FWD oneDNN kernel (#37002) · 99f9224c
  由 jakpiase 提交于 11月 10, 2021
```
* added stack oneDNN FP32 op

* minor change

* CI fix

* added skipping for gpus

* fix for stack op

* CI fix

* CI fix

* Added comment

* CI fix
```
  99f9224c
- W
  
  [FleetExecutor]Add interceptor message handle (#37093) · 643fd2f4
  由 WangXi 提交于 11月 10, 2021
  
  643fd2f4
- A
  
  Fix inner_program in Executor (#37083) · 8a2ce0f2
  由 Aurelius84 提交于 11月 10, 2021
  
  8a2ce0f2
- X
  
  fix recurrent_grad tmp variable@GRAD don't exsit in VariableScope (#37061) · 81cfbddc
  由 xiongkun 提交于 11月 10, 2021
  
  81cfbddc
- Y
  [fleet_executor] Add retry to the message bus's send. Use unique_lock instead... · f5caf9c5
  由 Yuang Liu 提交于 11月 10, 2021
```
[fleet_executor] Add retry to the message bus's send. Use unique_lock instead of calling lock(). (#37087)

* use unique lock, add retry

* bug fix
```
  f5caf9c5
- H
  Add libcinnapi.so to setup.py.in (#37068) · b4e25436
  由 Huihuang Zheng 提交于 11月 10, 2021
```
Add libcinnapi.so to setup.py.in
```
  b4e25436
- A
  Simplify constructor of InterpreterCore (#37072) · 8b2c906a
  由 Aurelius84 提交于 11月 10, 2021
```
* Simplify constructor of InterpreterCore

* fix bool

* clean code
```
  8b2c906a
- C
  [PTen] Compatible runtime performance optimization (#36946) · 76d2fd1d
  由 Chen Weihang 提交于 11月 10, 2021
```
* resolve conflit with develop

* cache kernel context in tracer for perf up

* replace densetensor when build kernel context

* fix detail compile error

* append impl to static mode

* fix conflit error

* clear attrs after run kernel

* fix coverage failed

* fix cycle compile error

* remove multi-in&out adapt code

* remove tensor meta utils

* clear data when throw exception
```
  76d2fd1d
- L
  Fix fused_attention_op scope. (#37065) · ad44a40c
  由 Li Min 提交于 11月 10, 2021
```
att, bug fix
```
  ad44a40c
- B
  
  fix multihead_matmul ut for tensorrt6 (#37073) · 48d53cfc
  由 baoachun 提交于 11月 10, 2021
  
  48d53cfc
- J
  Fix rnn grad bug in cpu when dropout is zero (#37080) · 211940eb
  由 Jack Zhou 提交于 11月 10, 2021
```
* fix rnn grad bug when num_layers is set 2 and dropout_prob is set 0

* add more test for rnn
```
  211940eb
- Y
  [fleet_executor] Implementation of the message bus, the carrier and part of... · 072e7801
  由 Yuang Liu 提交于 11月 10, 2021
```
[fleet_executor] Implementation of the message bus, the carrier and part of the interceptor (#37049)
```
  072e7801
- W
  cancle threadpool before deconstruction interpretorcore (#37034) · f0c77378
  由 wanghuancoder 提交于 11月 10, 2021
```
* cancle thread when exit, test=develop

* gc to unique_ptr, test=develop

* refine, test=develop

* fix namespace, test=develop
```
  f0c77378
- L
  
  fix brpc dependences (#37064) · c9763006
  由 LiYuRio 提交于 11月 10, 2021
  
  c9763006
09 11月, 2021 9 次提交
- S
  
  fix bugs when build in windows with_inference_api_test=on (#36973) · fd15477f
  由 Sing_chan 提交于 11月 09, 2021
  
  fd15477f
- A
  
  Refactor InterpretorCore and Modify into BlockDesc (#37056) · a6e99dc7
  由 Aurelius84 提交于 11月 09, 2021
  
  a6e99dc7
- Z
  Refine param conversion logic in layer.to (#36862) · 993ec76a
  由 zhangbo9674 提交于 11月 09, 2021
```
* refine layer to

* delete comment

* refine logic

* refine code

* refine pure_fp16_init

* refine comment
```
  993ec76a
- H
  
  optimize backward (#37055) · aac00f6a
  由 Haohongxiang 提交于 11月 09, 2021
  
  aac00f6a
- H
  PR to Add Paddle-CINN CI (#36989) · 71816707
  由 Huihuang Zheng 提交于 11月 09, 2021
```
PR to Add Paddle-CINN CI
```
  71816707
- A
  
  fix CompileProgram in Executor (#37036) · 77a8c94b
  由 Aurelius84 提交于 11月 09, 2021
  
  77a8c94b
- W
  delete profiler.cuda_profiler (#36524) · d817388e
  由 wanghuancoder 提交于 11月 09, 2021
```
* delete profiler.cuda_profiler, test=develop

* delete nvprof, test=develop

* add required: gpu, test=develop

* remove cuda_profiler, test=develop
```
  d817388e
- Z
  Try to fix CUDA Graph H2D copy bug (#36987) · 2a143f84
  由 Zeng Jinle 提交于 11月 09, 2021
```
* try to fix CUDA Graph H2D copy bug

* remove useless code

* fix ci

* fix ROCM CI

* fix CUDA_VERSION

* improve CI coverage
```
  2a143f84
- T
  
  add gather_nd/tile op for kunlun (#37029) · 819b9589
  由 TTerror 提交于 11月 09, 2021
  
  819b9589
08 11月, 2021 14 次提交

[PTen] Add full kernel in pten (incomplete) (#36930) · 655f4e3f

由 zyfncg 提交于 11月 08, 2021

* initial tensor design & sign kernel demo

* add move constructor for meta & add lodtensor

* add dirs & sign xpu kernel

* add mean cpu&cuda kernel impl

* move sign & mean xpu & npu kernel

* add selected_rows basic impl

* refactor design, BaseTensor to DenseTensor, etc.

* add scale mkldnn kernel

* polish xpu & npu impl details

* fix mkldnn reuse compile failed

* change tensor operation lib name

* rename util filename

* add more comments

* change TensorImplInterface to TensorInterface

* add kernel key and factory

* remove MKLDNNTensorMeta, add MKLDNNDenseTensor

* change XXDeviceContext to XXContext

* add base kernel registrar utils & test on sign

* replace boost::any by paddle::any

* fix several ci failed

* fix npu compile error

* add ordered map util

* fix multiple ordered_map compile errors

* move dev into include dir

* support sign op in static op run

* fix static op run error

* fix new executor compile failed

* add dygraph branch & remove sign_op.h

* fix test_infer_no_need_buffer_slots

* fix rocm compile link error

* fix unitybuild error & clear glog

* fix npu compile failed

* skip quant trans test

* fix part windows compile problem

* fix xpu enforce error

* fix inference test failed

* remove ordered_map to solve quant failed

* fix part of rcom compile faild

* add more register kernels

* revert scale kernel temporarily

* fix code format error

* add new kernel registrar marco

* rename top to tcmpt

* revert xpu, npu, mkldnn impl & remove op def

* add kernel args parse functor to auto parse args

* revert some change & add scale kernels

* add op proto in dygraph kernelcontext building

* polish kernel dispatch logic & nameing rule

* fix scale kernel match error

* fix scale test failed

* add mean API and unittest

* test mean api success

* add branch to solve compiled error

* skip clang format error

* add mean skip rule in op_library

* add dot kernel, api and unittest (#6)

* remove old kernel and add symbol link

* fix dot compiled failed

* add merco for module declare

* fix npu and xpu compile error

* revert sign, mean, scale, dot kernel removing

* add comment for keeping old kernel impl

* fix mutable_data error

* fix bfloat16 conflit

* fix inference undef error

* adapt to msvc compile rules

* polish comment for template inst

* add cmake template instantiation for win

* fix backend to place device id bug

* fix ifdef error

* Op2functor (#7)

* add kernel args maker class

* make args maker non-const

* remove debug log

* modify codes by review options

* split constructPrKernelContext function

* fix output name bug

* fix test_mean_op test_sign_op failed

* fill_any_like kernel refactor (#10)

* fill_any_like kernel refactor

* remove useless code of full_like c++ api

* skip dtype for fill_any_like

* add attrs for kernel key constrcut

* add use_pt_kernel Flags to control whether to use pt kernel (#13)

* add use_pt_kernel Flags to control whether to use pt kernel

* change the default value to true for cheking pt kernels

* fix mutable_data cuda place error

* move high level apis into hapi

* remove selectedrows adapting temporarily

* Support Scalar in Tensor Compute Library (#14)

* fill_any_like kernel refactor

* remove useless code of full_like c++ api

* Support Scalar in Tensor Compute Library

* add scalar in dygraph and static graph mode

* keep the basic type for attr, instead of using scalar for all

* merge the code

* remove mkldnn tensor & polish details

* use flat_hash_map and small_vector in kernel factory

* Refactor flatten kernel (#12)

* refactor flatten kernel

* update infershape function

* fix compile bugs

* fix bugs when merge

* fix compiler bugs

* fix bugs when run test_flatten_api

* fix bugs when run test

* Revert "use flat_hash_map and small_vector in kernel factory"

This reverts commit 23091495cfdd3df8cc1be592d30f09ea66a7c72b.

* Move cpu, cuda and other device code into kernels (#15)

* fill_any_like kernel refactor

* remove useless code of full_like c++ api

* Support Scalar in Tensor Compute Library

* add scalar in dygraph and static graph mode

* keep the basic type for attr, instead of using scalar for all

* merge the code

* start refactor matmul

* move cpu, cuda and other device modules into kernels

* merge code

* polish code in operator.cc

* Perfect unitests (#16)

* perfect unittest

* update license

* replace with flat_hash_map, small_vector (#19)

* fix small_vector build error on windows platform

* replace with flat_hash_map, small_vector

* remove todo

* Perfect unitests (#20)

* perfect unittest

* update license

* fix bug when run tcmpt_utils_test

* refactor execution adapting impl

* fix insert conflit

* Fix CI bug of test_yolov3 (#21)

* fill_any_like kernel refactor

* remove useless code of full_like c++ api

* Support Scalar in Tensor Compute Library

* add scalar in dygraph and static graph mode

* keep the basic type for attr, instead of using scalar for all

* merge the code

* start refactor matmul

* move cpu, cuda and other device modules into kernels

* merge code

* polish code in operator.cc

* Fix CI bug of test_yolov3

* add the tensor base class, test=develop (#17)

* update the tensor base class, test=develop

* remove two funcs, test=develop

* update the error msg, test=develop
Co-authored-by: NChen Weihang <chenweihang@baidu.com>

* [no-verify] commit backend and tensor signature changes

* Rename tcmpt to pten (#23)

* rename tcmpt to pten

* update omitted files for rename to pten

* update omitted file for rename to pten

* remove k of all enum var

* remove kernel_instantiate (#26)

* remove symbols and spatial_tensor

* change common to functions

* readd share tensor impl methods

* add a candidate dense tensor class, test=develop (#28)

* change all Pt to Pten

* resolve conflit with xiaowei

* Op2functor opt1 (#27)

* replace to small vector and change to const &

* add std::move
Co-authored-by: NChen Weihang <chenweihang@baidu.com>

* polish kernel factory and kernel registry

* fix operator test error msg mismatch

* remove tensor signature and backend set member

* move scalar and polish enforce

* revert dtype layout change to fix error

* fix enum operator override error

* add several base unittests

* add pten utils tests

* polish some details

* Dev/op2func refactor 3 (#30)

* add a candidate dense tensor class, test=develop

* remove TensorBase::backend(), test=develop

* remove some ops, test=develop

* cherry-pick the pr of tensor meta, test=develop

* moves the dense tensor and some ops, test=develop

* update the linalg operator, test=develop

* update other operators, test=develop

* fix errors, test=develop

* fix bugs, test=develop

* try to resolve the problem of windows ci, test=develop

* updates codes, test=develop

* fix the tensor_utils.cc, test=develop

* modify the dense tensor, test=develop

* fix the data type, test=develop
Co-authored-by: Nshixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>

* polish some details

* polish kernel signature details

* fix a bug about offsets of the tensor, test=develop (#31)
Co-authored-by: Nshixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>

* polish some details

* add fill_constant kernel in pten

* fix bug of full api (c++)

* remove the support for SelectRows in new fill_constant kernel

* fix bug of setting fill_any_like kernel key

* merge code confilct

* modify fill_constant GetExpectedKernelType

* fix fill_constant KernelType bug

* polish code of build pten KernelContext

* refactor code of fill_constant in pten
Co-authored-by: NChen Weihang <chenweihang@baidu.com>
Co-authored-by: Nchentianyu03 <ctychentianyu@gmail.com>
Co-authored-by: NYuanRisheng <yuanrisheng@baidu.com>
Co-authored-by: N石晓伟 <39303645+Shixiaowei02@users.noreply.github.com>

655f4e3f

Use cuda virtual memory management and merge blocks (#36189) · a1ec1d5a

由 wanghuancoder 提交于 11月 08, 2021

* Use cuda virtual memory management and merge blocks, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* window dll, test=develop

* fix cuda error of CUDA_ERROR_NOT_INITIALIZED, test=develop

* use autogrowthv2 for system allocator, test=develop

* remove ~CUDAVirtualMemAllocator(), test=develop

* refine, test=develop

* fix cuda error of CUDA_ERROR_NOT_INITIALIZED, test=develop

* fix cuda error of CUDA_ERROR_NOT_INITIALIZED, test=develop

* fix bug, test=develop

* revert system allocator, test =develop

* revert multiprocessing, test=develop

* fix AutoGrowthBestFitAllocatorV2 mutxt, test=develop

* catch cudaErrorInitializationError when create allocator, test=develop

* fix cuMemSetAccess use, test=develop

* refine cuda api use, test=develop

* refine, test=develop

* for test, test=develop

* for test, test=develop

* switch to v2, test=develop

* refine virtual allocator, test=develop

* Record cuMemCreate and cuMemRelease, test=develop

* refine, test=develop

* avoid out of bounds, test=develop

* rename allocator, test=develop

* refine, test=develop

* use PADDLE_ENFORCE_CUDA_SUCCESS, test=develop

* for test,test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

* refine, test=develop

a1ec1d5a

L
【fix-bug】Support attn_mask=None input cases for fused_attention_op. (#36951) · 472dcca4
由 Li Min 提交于 11月 08, 2021
```
目前的fused_attention_op不支持attn_mask=None的输入，本PR对此进行了补充，并补充了相应的单测逻辑。
```
472dcca4
W

add pass and mkldnn base ut. (#36967) · b7e88308
由 Wilber 提交于 11月 08, 2021

b7e88308
K

avoid setting logging.basicConfig (#37031) · 1305b4f5
由 kuizhiqing 提交于 11月 08, 2021

1305b4f5
L
Revert "Add reference to global_gather and global_scatter operators (#36985)" (#37027) · 14279330
由 lilong12 提交于 11月 08, 2021
```
This reverts commit aef291f4.
```
14279330
0

set net.forward to original forward function in flops (#36852) · 94bcc2ab
由 0x45f 提交于 11月 08, 2021

94bcc2ab
G

fix bug for fp32 batchnorm_op when using nhwc data_layout (#37020) · 0666b858
由 Guoxia Wang 提交于 11月 08, 2021

0666b858
C

fix fleet executor dep error (#37025) · cde335a1
由 Chen Weihang 提交于 11月 08, 2021

cde335a1
Z

setitem support passing stop_gradient from value to tensor (#37023) · aef8bf2a
由 zyfncg 提交于 11月 08, 2021

aef8bf2a
T
add refrence (#36994) · ac1d3571
由 Thunderbrook 提交于 11月 08, 2021
```
* add refrence

* format
```
ac1d3571
Y

Initial Commit fix (#36988) · e5f18145
由 Yanxing Shi 提交于 11月 08, 2021

e5f18145
李
Add reference to global_gather and global_scatter operators (#36985) · aef291f4
由李季提交于 11月 08, 2021
```
* add reference to global_gather and global_scatter operators
```
aef291f4

Add Support for OperatorBase in new executor (#36945) · 251f68e7

由 xiongkun 提交于 11月 08, 2021

* add scope as membership

* functions complete

* fix bugs: garbage collectior

* deal unknow variable holder

* add

* 1. add unittest for operator_base

* code format

251f68e7

06 11月, 2021 2 次提交
- Z
  Update the batch size used in test_resnet50_with_cinn.py. (#37013) · 68c3e2cb
  由 Zhen Wang 提交于 11月 06, 2021
```
* Update the batch size used in test_resnet50_with_cinn.py.
* Enable more debug info.
```
  68c3e2cb
- J
  add deny param list to solve unuse param cannot found problem (#36996) · 1653f99f
  由 jiangcheng 提交于 11月 06, 2021
```
* add deny param list to solve unuse param cannot found the problem

* enclosure deny list in a function

* update by review advice
```
  1653f99f

PaddlePaddle / Paddle 1 年多 前同步成功

PaddlePaddle / Paddle
1 年多前同步成功