- 10 1月, 2022 1 次提交
-
-
由 wangxinxin08 提交于
* add mish operator and api * remove redundant code and modify grad_atol of mish unittest * modify mish code to be consistent with other activation implementation * modify comment of mish
-
- 29 12月, 2021 1 次提交
-
-
由 Guoxia Wang 提交于
* support data_format='NHWC' for prelu channel mode (#37019) * support data_format='NHWC' for prelu channel mode * fix prelu weight shape for NHWC of static mode (#38310)
-
- 29 11月, 2021 1 次提交
-
-
由 smallv0221 提交于
* fix dropout static when axis != None * update dropout test * add dropout test * fix test * Update test_dropout_op.py * Update test_dropout_op.py * fix testcase * fix testcase * Update test_dropout_op.py * fix testcase * fix testcase * optimize perf * add new test * fix testcase
-
- 23 11月, 2021 1 次提交
-
-
由 zhupengyang 提交于
-
- 19 11月, 2021 1 次提交
-
-
由 Liu-xiandong 提交于
* fix cusparse compile bug in CUDA11.2, test=develop * modify sparse_attention docs, test=document_fix (#36554) * modify sparse_attention docs, test=develop * add warning * add warning ,test=document_fix
-
- 16 11月, 2021 1 次提交
-
-
由 zhangkaihuo 提交于
修复了fused_transformer_encoder_layer fine-tune过程发现的一些问题: fused_attention_op添加attn_mask=None的支持:PR pre_layer_norm处理问题:PR 参数处理,计算错误的问题:PR add_bias计算错误问题:PR 添加pure fp16的支持:PR
-
- 28 10月, 2021 1 次提交
-
- 27 10月, 2021 2 次提交
-
-
由 Guoxia Wang 提交于
* fix BatchNorm for fp16
-
由 Li Min 提交于
功能:本PR的目标是提高attention模块的计算性能。 为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op; 为了减少防存开销,本PR采取了两种优化方法: (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次; (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
-
- 26 10月, 2021 4 次提交
-
-
由 zhangkaihuo 提交于
* add op: fused_feedforward(backward) (#35611) 这个PR是fused_feedforward反向的代码 相关kernel实现:fused_dropout_act_bias, fused_residual_dropout_bias, fused_layernorm_residual_dropout_bias fused_feedforward是一个融合算子,该算子对transformer模型的feed forward层的算子进行融合和封装,使得前端只呈现一个接口,通过融合减少部分访存和kernel launch的时间,以此提升性能。 * Move fused_attention and fused_feedforward functional api path to incubate (#36704) 将 #35905 和 #35843 PR中新增的的python api接口移到incubate目录下。
-
由 zhangkaihuo 提交于
This is a fusion operator to compute feed forward layer in transformer model architecture.
-
由 HydrogenSulfate 提交于
-
由 Li Min 提交于
功能:本PR的目标是提高attention模块的计算性能。 为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op; 为了减少防存开销,本PR采取了两种优化方法: (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次; (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
-
- 25 10月, 2021 1 次提交
-
-
由 Liu-xiandong 提交于
Add paddle.nn.functional.sparse_attention API 本个PR主要将sparse_attention功能在python层进行了一层封装,OP的主体代码见:#PR35676 此外,对于封装的python 接口,增加了相应的单测。
-
- 30 9月, 2021 1 次提交
-
-
由 Guoxia Wang 提交于
-
- 26 9月, 2021 1 次提交
-
-
由 littletomatodonkey 提交于
* fix pad tuple * fix format
-
- 17 9月, 2021 1 次提交
-
-
由 xiaoting 提交于
* fix unpool doc, test=document_fix * fix typo for python example, test=document_fix
-
- 15 9月, 2021 4 次提交
-
-
由 zyfncg 提交于
* Change the invoking method of settiem from numpy to set_value op when value is not tensor * fix the check logic for inplace in setitem * fix the unittest problem caused by setitem doesn't support fp16 * modify some code format in setitem
-
由 Qi Li 提交于
* [NPU] fix depthwise_conv2d_grad, test=develop * remove debug files, test=develop
-
由 YuanRisheng 提交于
* Add New Op: gumbel_softmax * Add New Op: gumbel_softmax * Add New Op: gumbel_softmax (amend) * add __main__ function in unit test * fix bugs when test in windows ci * update en docs * delete reletive error in unit test * delete relative error in unit test * set hard=True in unit test
-
由 Guoxia Wang 提交于
-
- 14 9月, 2021 2 次提交
- 13 9月, 2021 2 次提交
-
-
由 xiaoting 提交于
* fix interpolate launch error, test=develop * fix area mode for interp, test=develop
-
由 zhulei 提交于
* [RC22] Fix linear with matmul_op replace * [RC22] Fix linear with matmul_op replace * [RC22] Fix linear with matmul_op replace * [RC22] Fix linear with matmul_op replace * [RC22] Fix linear with matmul_op replace
-
- 09 9月, 2021 1 次提交
-
-
由 XGZhang 提交于
-
- 08 9月, 2021 1 次提交
-
-
由 Guoxia Wang 提交于
-
- 07 9月, 2021 1 次提交
-
-
由 wangxinxin08 提交于
* add conv op check for illegal input or attributes
-
- 06 9月, 2021 2 次提交
-
-
由 Double_V 提交于
* add kernel, stride check * add unitest for param out of range * delete max limit check
-
由 Feng Xing 提交于
This PR adds error exception in fused transformer python interface. The function body are not implemented (will be implemented later). Following zhiqiu's comment in previous PR-35206 (merged already), it is better to raise an exception instead of using "pass".
-
- 31 8月, 2021 1 次提交
-
-
由 Feng Xing 提交于
This PR adds fused transformer python related files. It defines interface of fused transformer. Fused transformer implements an optimized version of transformer layer (in python/paddle/nn/layer/transformer.py). In this PR, four layers (functions) are defined: (1) FusedMultiHeadAttention: multi-head attention layer (2) FusedFeedForward: feed forward layer (3) FusedTransformerEncoderLayer: transformer encoder layer (4) FusedTransformer: transformer layer
-
- 29 8月, 2021 1 次提交
-
-
由 Guoxia Wang 提交于
-
- 27 8月, 2021 8 次提交
-
-
由 Guoxia Wang 提交于
-
由 xiaoting 提交于
* add maxunppol2d op, test=develop * fix typo, test=develop * fix unpool unitest, test=develop * fix unpool code-example, test=develop * fix for unpool_op_unittest,test=develop * fix example code, test=develop * add noqa:F401, test=develop * fix converage, test=develop * fix unitest for unpool, test=develop * rename unpool2d to unpool, test=develop * rename unpool2d to unpool, test=develop
-
由 HydrogenSulfate 提交于
-
由 HydrogenSulfate 提交于
-
由 HydrogenSulfate 提交于
-
由 HydrogenSulfate 提交于
-
由 HydrogenSulfate 提交于
-
由 HydrogenSulfate 提交于
-