- 29 12月, 2022 1 次提交
-
-
由 Wang Bojun 提交于
* fusedAttenGrad_noGrad * code style fix * add ut * remove unnecessary log
-
- 16 12月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 13 12月, 2022 1 次提交
-
-
由 sneaxiy 提交于
* save fused_attention memory when dropout_rate = 0.0 * add ut * fix ut bug * fix fused_layernorm_residual_dropout_bias_test.cu
-
- 07 12月, 2022 1 次提交
-
-
由 张春乔 提交于
-
- 22 11月, 2022 1 次提交
-
-
由 huangjiyi 提交于
* move "paddle/phi/backends/gpu/gpu_device_function.h" to phi * update copyright years * rm "fluid/platform/device/gpu/gpu_device_function.h" in phi * rm dependence to "gpu_device_function.h" in fluid * rm gpu_device_function.h etc in fluid * fix rocm-complie bugs * fix cuda_helper_test.cu bugs
-
- 07 11月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 26 10月, 2022 1 次提交
-
-
由 sneaxiy 提交于
* fix fused_attention fused_feedforward * fix ci * fix ci * fix ci PADDLE_GET_CONST * fix ci ut
-
- 09 10月, 2022 1 次提交
-
-
由 Haohongxiang 提交于
-
- 28 9月, 2022 1 次提交
-
-
由 Chen Weihang 提交于
* remove needless using tensor * remove needless using tensor * resolve conflict * replace tensor using * fix format error * revert needless changing * fix rocm and npu compile error * fix cinn compile error * fix format error * fix mkldnn format error * fix mkldnn format error * fix cinn compile error * fix cinn compile error * fix cinn compile error * resolve conflict
-
- 07 9月, 2022 1 次提交
-
-
由 Wilber 提交于
-
- 01 8月, 2022 1 次提交
-
-
由 Leo Chen 提交于
* remove cudaDeviceContext * remove more template * fix rocm compile * remove alias name CUDADeviceContext * fix compile * fix tests * revert changes
-
- 12 7月, 2022 1 次提交
-
-
由 Yuang Liu 提交于
-
- 26 6月, 2022 1 次提交
-
-
由 Sing_chan 提交于
-
- 17 6月, 2022 1 次提交
-
-
由 Yiqun Liu 提交于
* Support optional residual add in fused_attention and fused_feedforward. * Add checkpoint and add the check of add_residual when pre_layer_norm is false. * Add TODO and change the python api to add add_residual argument.
-
- 05 6月, 2022 1 次提交
-
-
由 Sing_chan 提交于
-
- 31 5月, 2022 1 次提交
-
-
由 Li Min 提交于
* replace dropout_is_test with is_test. * improve atol on a100.
-
- 24 5月, 2022 1 次提交
-
-
由 YuanRisheng 提交于
* move grad_add * fix unittest bugs * fix compile bugs
-
- 11 3月, 2022 1 次提交
-
-
由 Yuang Liu 提交于
-
- 20 2月, 2022 1 次提交
-
-
由 Chen Weihang 提交于
* rename pten dir to phi * rename namespace to phi * rename infrt pten dir to phi * resolve conflict * rename pten to phi in cmake * revert all infrt change * change needed files * fix infrt failed * fix inference failed
-
- 11 2月, 2022 1 次提交
-
-
由 Feiyu Chan 提交于
* move operators/math/math_function_* to pten/kernels/func * namespace from `paddle::operators::math` to `pten::funcs`
-
- 18 1月, 2022 1 次提交
-
-
由 Zhanlue Yang 提交于
* Merged LoDTensor with Tensor,test=allcases * Patched python level LoDTensor * Patched python level LoDTensor * Merge Tensor into DenseTensor * Fixed namespace issues,test=allcases * Fixed merge issues * Fixed inference issues * Fixed NPU test issues * Fixed merge issues
-
- 03 12月, 2021 1 次提交
-
-
由 ronnywang 提交于
* refine structure for cuda and rocm * update * update * update * update
-
- 23 11月, 2021 1 次提交
-
-
由 Li Min 提交于
Add support for bias is none for fused_attention op.
-
- 16 11月, 2021 1 次提交
-
-
由 Li Min 提交于
fused_attention_op的实现中,使用了bias_add,且其实现是通过使用kernel primitive来实现的,之后kernel primitive的WriteData api接口及函数内部实现发生了更改,将判断越界的逻辑移到了template的参数中,使得调用的分支有错误,产生了越界赋值操作,污染了别的显存空间的内容。具体表现为:test_fused_attention_op_api.py 单次执行基本上不会报错,多次循环执行不同shape的输入,结果计算不对,具有偶发性,bug不易察觉。
-
- 10 11月, 2021 1 次提交
-
-
由 Li Min 提交于
att, bug fix
-
- 08 11月, 2021 1 次提交
-
-
由 Li Min 提交于
目前的fused_attention_op不支持attn_mask=None的输入,本PR对此进行了补充,并补充了相应的单测逻辑。
-
- 28 10月, 2021 1 次提交
-
-
由 Li Min 提交于
* Fix bug when pre_layer_norm is false.
-
- 26 10月, 2021 1 次提交
-
-
由 Li Min 提交于
功能:本PR的目标是提高attention模块的计算性能。 为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op; 为了减少防存开销,本PR采取了两种优化方法: (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次; (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
-
- 22 10月, 2021 1 次提交
-
-
由 Li Min 提交于
功能:本PR的目标是提高attention模块的计算性能。 为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op; 为了减少防存开销,本PR采取了两种优化方法: (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次; (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
-