提交 · f16090b5085fc28b7b7c354efdc47288bef47b65 · PaddlePaddle / Paddle-Lite

01 6月, 2020 1 次提交
- W
  
  [CUDA] [Framework] [FP16] Lite framework support fp16. (#3673) · c0a8e2dd
  由 Wilber 提交于 6月 01, 2020
  
  c0a8e2dd
28 5月, 2020 1 次提交

[Libsize] Reduce size of dynamic library ".so" (#3717) · ec8ef528

由 T8T9 提交于 5月 28, 2020

* reduce .so size. test=develop

* compile all targets when LITE_ON_TINY_PUBLISH=OFF

* unordered_map is more convenient when key is customized class

* test=develop

ec8ef528

09 5月, 2020 1 次提交
- W
  
  fix graphics memory leak problem. test=develop (#3598) · 89ec0241
  由 Wilber 提交于 5月 09, 2020
  
  89ec0241
08 5月, 2020 1 次提交
- W
  add eltwise_activate fuse. test=develop (#3367) · 2a344823
  由 Wilber 提交于 5月 08, 2020
```
* add eltwise_activate_fuse. test=develop
```
  2a344823
01 4月, 2020 1 次提交
- W
  add cuda kernels. test=develop (#3315) · 91a58fba
  由 Wilber 提交于 4月 01, 2020
```
add cuda kernel.

abs, tanh, elementwise_sub
```
  91a58fba
25 3月, 2020 1 次提交
- H
  
  [Python lib] Add opt lib into python lib (#3209) · 5fea8e10
  由 huzhiqiang 提交于 3月 25, 2020
  
  5fea8e10
17 3月, 2020 3 次提交

W
add cuda c++ doc. (#3207) · 52714b87
由 Wilber 提交于 3月 17, 2020
```
add cuda c++ doc
```
52714b87

add cuda cxx demo (#3205) · f6461e39

由 Wilber 提交于 3月 17, 2020

- 增加cuda c++ demo.
- 考虑到检测模型尾部一般是multiclass_nms，该kernel为host，如果fetch kernel为cuda的话，则会在此处插入无用的io_copy(host->cuda)，由于该原因，注释掉fetch的cuda kernel. 默认使用host的fetch kernel. 此处暗中进行的行为：每次predictor run完，都会默认把数据从cuda拷贝到cpu

f6461e39

W
For cuda compilation products and ci (#3152) · 774b4652
由 Wilber 提交于 3月 17, 2020
```
add cuda ci.

Organize cuda compilation products.
```
774b4652

09 3月, 2020 1 次提交

enhance kernels of transformer decoder (#3110) · b086e835

由 zhupengyang 提交于 3月 09, 2020

* enhance gather, lookup_table arm kernel uts

* enhance beam_search, beam_search_decoder, increment rigster

b086e835

20 2月, 2020 1 次提交
- W
  Optimize cuda kernel and remove io_copy added by default due to missing fetch_cuda kernel (#2920) · 823f0dae
  由 Wilber 提交于 2月 20, 2020
```
Optimize cuda kernel and remove io_copy added by default due to missing fetch_cuda kernel
```
  823f0dae
19 1月, 2020 1 次提交

fix bug for crmm model test=develop (#2786) · 922ace19

由 Wilber 提交于 1月 19, 2020

- modify aligned_matmul kernel for dynamically malloc memory
- fix top_k_avg_pooling kernel to support data whose size is more than cuda shared memory.

922ace19

15 1月, 2020 1 次提交
- W
  fix var_conv_2d to support cascading use. test=develop (#2766) · d8143103
  由 Wilber 提交于 1月 15, 2020
```
- 修复var_conv_2d级联使用中计算错误的bug
- x86的var_conv_2d中显示指定lod level为3
```
  d8143103
09 1月, 2020 2 次提交
- W
  temporarily remove x86 fuse test=develop (#2742) · b30dc65b
  由 Wilber 提交于 1月 09, 2020
```
* temporarily remove x86 fuse test=develop

* remove useless logs test=develop
```
  b30dc65b
- J
  
  fix cuda yolobox kernel of the input type, test=develop (#2740) · aab3d31f
  由 juncaipeng 提交于 1月 09, 2020
  
  aab3d31f
06 1月, 2020 1 次提交
- 石
  
  fix build errors, test=develop (#2728) · 947cda26
  由石晓伟提交于 1月 06, 2020
  
  947cda26
28 12月, 2019 1 次提交
- H
  
  Upgrade of Model_optimize_tool (#2624) · 4300ef75
  由 huzhiqiang 提交于 12月 28, 2019
  
  4300ef75
25 12月, 2019 1 次提交
- W
  optimize softmax cuda kernel test=develop (#2660) · 8f593443
  由 Wilber 提交于 12月 25, 2019
```
optimize softmax cuda kernel
```
  8f593443
23 12月, 2019 1 次提交
- W
  add sequence_pool_concat fuse and kernel test=develop (#2645) · 1b74fded
  由 Wilber 提交于 12月 23, 2019
```
add sequence_pool_concat fuse pass

add fuse kernel
```
  1b74fded
20 12月, 2019 1 次提交
- W
  add var_conv_2d_relu pass test=develop (#2631) · 8304bc84
  由 Wilber 提交于 12月 20, 2019
```
add var_conv_2d + relu fuse pass
```
  8304bc84
19 12月, 2019 1 次提交
- W
  optimize cuda kernel test=develop (#2628) · 09aa15a5
  由 Wilber 提交于 12月 19, 2019
```
* optimize content-dnn cuda kernel
```
  09aa15a5
15 12月, 2019 1 次提交
- W
  optimize search_grnn test=develop (#2608) · dad43f81
  由 Wilber 提交于 12月 15, 2019
```
optimize search_grnn
```
  dad43f81
04 12月, 2019 2 次提交
- W
  update cuda kernels to run content-dnn models test=develop (#2554) · aa67c28e
  由 Wilber 提交于 12月 04, 2019
```
update cuda kernels to run content-dnn model
```
  aa67c28e
- Z
  [cuda] [int8] resnet50 cuda int8 support (#2417) · f7574646
  由 Zhaolong Xing 提交于 12月 04, 2019
```
* init resnet cuda int8 support
test=develop

* refine cuda unit test
test=develop

* add the forgeted file.
test=develop
```
  f7574646
22 11月, 2019 3 次提交

update conv 2-pad to 4-pad (#2404) · 820eb6d4

由 HappyAngel 提交于 11月 22, 2019

* fix conv 2-pad to 4-pad

* fix compute conv shape

* fix pad, test=develop

* change conv_depthwise_3x3s1_fp.cc name to conv3x3s1p01_depthwise_fp32.cc to distinguish between conv3x3s1_depthwise_fp32.cc

* delete printf note in conv3x3s1, test=develop

* delete printf note, test=develop

* delete gem_sdot.h, test=develop

it is coped from __gemm_sdot_meta_.h

* update compute padding, test=develop

* fix padding size, must be 2 or 4. test=develop

* fix format in operators/conv_op.cc, test=develop

* change #if 0 to #if 1, test=develop

* put 2-pad to 4-pad in AttachImpl, test=develop

* fix clang-format error inn tests/math/connv_compute_test, test=develop

* fix x86 test result error, test=develop

* add asymmetric padding test case in liite/tests/math/conv_compute.cc, test=develop

* change paddings type to support dynamically modify, test=develop

* fix x86 build error in connv_compute_test, test=develop

* fix opencl build error, test=develop

* fix oopencl build error, test=develop

* fix  opencl/conv_compute build error, test=develop

* fix  opencl/conv_compute build error, test=develop

* fix format in kernels/opencl/conv_computte_ttest,test=develop

* fix build error, test=develop

fix build error in kernels/x86/conv_compute.h

820eb6d4

update pooling 2-padding to 4-padding (#2410) · a7f7d49b

由 HappyAngel 提交于 11月 22, 2019

* fix pooling bug and speed

* fix build error

* delete VLOGin pool, test=develop

* add openmp, test=develop

* fix lite/kernels/arm/pool_compute_test basic_pooling compute error bug, test=develop

* update pooling 2-pad to 4-pad, test=develop

* fix 2-pad to 4-pad in operators/pool_op.h, AttachKernel will set param, so 2-pad to 4-pad funcs should put in AttachKernel. test=ddevellop

* put 2-pad to 4-pad in AttachImpl, test=develop

* according to reviews, fix some format error. test=develop

* fix format errorr, add (). test=develop

* change paddings type to support dynamically modify, test=develop

* update padding type int other devices, test=develop

* fix x8d build error on shared_ptr, test=ddevelop

* fix formmat in operators pool_op.cc, test=develop

a7f7d49b

P

add search_group_padding cuda kernel, test=develop (#2472) · 36c0068e
由 Pei Yang 提交于 11月 22, 2019

36c0068e

21 11月, 2019 3 次提交
- H
  add cuda kernel for sequence_topk_avg_pooling and search_fc (#2451) · 3a881861
  由 huzhiqiang 提交于 11月 21, 2019
```
* cuda kernel for sequence_topk_avg_pooling and search_fc test=develop
```
  3a881861
- P
  
  remove duplicate cmake targets of sequence-pool (#2467) · bf2c6fca
  由 Pei Yang 提交于 11月 21, 2019
  
  bf2c6fca
- 石
  fix cuda build error, test=develop (#2464) · d8ddbcc6
  由石晓伟提交于 11月 21, 2019
```
* fix cuda building, test=develop

* remove sequence_pool from cmake because build error, test=develop
```
  d8ddbcc6
20 11月, 2019 4 次提交

fix sequence pool cuda (#2466) · 43f1358f

由 Pei Yang 提交于 11月 20, 2019

* add sequence_pool cuda kernel, test=develop

* fix sequence_pool cuda,test=develop

* fix and complete unittest, test=develop

* fix macro of sequence_pool cuda, test=develop

43f1358f

J
fix x86 search_grnn, add cuda search_grnn and unit test (#2448) · e1b67433
由 juncaipeng 提交于 11月 20, 2019
```
* fix x86 search_grnn and add unit test
* add cuda search_grnn and unit test
```
e1b67433

fix sequence pool cuda (#2457) · b094b2b6

由 Pei Yang 提交于 11月 20, 2019

* add sequence_pool cuda kernel, test=develop

* fix sequence_pool cuda,test=develop

* fix and complete unittest, test=develop

b094b2b6

石
add cuda ci building, test=develop (#2460) · 2621af0e
由石晓伟提交于 11月 20, 2019
```
* add cuda ci building, test=develop

* update comments, test=develop
```
2621af0e

19 11月, 2019 3 次提交
- H
  
  [LITE][CUDA] Add CUDA kernel for search_aligned_mat_mul and search_seq_fc Op (#2449) · 8373aec5
  由 hong19860320 提交于 11月 19, 2019
  
  8373aec5
- Z
  add search_seq_softmax op; regist search_seq_softmax x86 kernel and cuda kernel (#2445) · f9930fc1
  由 zhupengyang 提交于 11月 19, 2019
```
test=develop
```
  f9930fc1
- Z
  [X86][CUDA] add attention_padding_mask op, x86 kernel, cuda kernel and unit tests (#2437) · ef6f7b84
  由 zhupengyang 提交于 11月 19, 2019
```
* [X86] add attention_padding_mask op, x86 kernel and unit test

test=develop

* [CUDA] add attention_padding_mask cuda kernel and unit test

test=develop
```
  ef6f7b84
18 11月, 2019 3 次提交
- W
  add var_conv_2d cuda kernel and unit test test=develop (#2441) · 884c840d
  由 Wilber 提交于 11月 18, 2019
```
- add var_conv_2d cuda kernel

- add var_conv_2d cuda kernel unit test

- temporarily set to two input mode, remove input(ROW) and input(COLUMN)
```
  884c840d
- P
  add sequence_pool cuda kernel, test=develop (#2430) · 3d73dea9
  由 Pei Yang 提交于 11月 18, 2019
```
add sequence_pool cuda kernel
```
  3d73dea9
- Z
  [X86][CUDA] add sequence_arithmetic op , x86 kernel, cuda kernel and unit test (#2436) · 8599c042
  由 zhupengyang 提交于 11月 18, 2019
```
* [X86][CUDA] add sequence_arithmetic op , x86 kernel, cuda kernel and unit test

test=develop

* add sequence_arithmetic cuda kernel unit test

test=develop
```
  8599c042