- 26 6月, 2022 1 次提交
-
-
由 Sing_chan 提交于
-
- 21 6月, 2022 1 次提交
-
-
由 Yiqun Liu 提交于
-
- 20 6月, 2022 2 次提交
-
-
由 whs 提交于
-
由 Zhang Zheng 提交于
* support more dimensions * fix
-
- 17 6月, 2022 1 次提交
-
-
由 Yiqun Liu 提交于
* Support optional residual add in fused_attention and fused_feedforward. * Add checkpoint and add the check of add_residual when pre_layer_norm is false. * Add TODO and change the python api to add add_residual argument.
-
- 15 6月, 2022 1 次提交
-
-
由 Yiqun Liu 提交于
* Optimize prod's python implementation for dygraph. * Change key_dim to head_dim. * Add comment in unittest. * Disable TF32 in unittest.
-
- 14 6月, 2022 1 次提交
-
-
由 Sing_chan 提交于
-
- 10 6月, 2022 1 次提交
-
-
由 limingshu 提交于
-
- 09 6月, 2022 1 次提交
-
-
由 crystal 提交于
Co-authored-by: NLiu Yiqun <liuyiqun01@baidu.com>
-
- 08 6月, 2022 1 次提交
-
-
由 Yiqun Liu 提交于
* Polish codes and memory usage for fused_gate_attention. * Fix wrong reduce_dims in fused_gate_attention when computing gradient of nonbatched_bias.
-
- 07 6月, 2022 1 次提交
-
-
由 Zhang Zheng 提交于
-
- 05 6月, 2022 2 次提交
- 04 6月, 2022 1 次提交
-
-
由 Sing_chan 提交于
-
- 02 6月, 2022 2 次提交
-
-
由 Zhang Zheng 提交于
* Support head_dim = 96 in fused_multi_transformer in PLATO-XL * add notes
-
由 Li Min 提交于
* extend forward fast_ln_kernel to support more column values.
-
- 01 6月, 2022 1 次提交
-
-
由 sneaxiy 提交于
* support weight transpose * add ut * add template * fix transpose error * fix transpose_comment * add api tests * add skipif * add doc
-
- 31 5月, 2022 1 次提交
-
-
由 Li Min 提交于
* replace dropout_is_test with is_test. * improve atol on a100.
-
- 30 5月, 2022 2 次提交
- 27 5月, 2022 1 次提交
-
-
由 zyfncg 提交于
* refactor the optional tensor * remove optiona<MetaTensor> in InferMeta * fix bug * fix optional<vector<Tensor>> * fix bug * fix rmsprop * fix amp of eager_gen * polish code * fix deleted code * fix merge conflict * polish code * remove is_nullopt_ * fix merge conflict * fix merge conflict
-
- 25 5月, 2022 1 次提交
-
-
由 Leo Chen 提交于
* fix maybe-uninitialized warning * fix compile * fix xpu compile * fix npu compile * fix infer compile * fix compile * fix compile
-
- 24 5月, 2022 1 次提交
-
-
由 YuanRisheng 提交于
* move grad_add * fix unittest bugs * fix compile bugs
-
- 20 5月, 2022 1 次提交
-
-
由 WangXi 提交于
-
- 17 5月, 2022 1 次提交
-
-
由 zhupengyang 提交于
-
- 16 5月, 2022 2 次提交
-
-
由 niuliling123 提交于
-
由 WangXi 提交于
-
- 12 5月, 2022 1 次提交
-
-
由 Shuangchi He 提交于
-
- 06 5月, 2022 1 次提交
-
-
由 Zhang Zheng 提交于
-
- 02 5月, 2022 1 次提交
-
-
由 Zhang Zheng 提交于
* Fix test_cudnn_norm_conv and test_cudnn_bn_add_relu in CUDA11.2 * no throw in V100 for some cases
-
- 28 4月, 2022 3 次提交
-
-
由 Zhang Zheng 提交于
* Suppport more scenes for fused_fast_ln * fix
-
由 WangXi 提交于
-
由 WangXi 提交于
-
- 26 4月, 2022 1 次提交
-
-
由 WangXi 提交于
-
- 22 4月, 2022 1 次提交
-
-
由 Ming-Xu Huang 提交于
* Fix leading dimension setting error in fused_gemm_epilogue_grad_op. * Add dyload to cuBlasLt functions. * Added cublasLtMatmulAlgoGetHeuristic to improve performance. * Added FLAGS_cublaslt_exhaustive_search_times to cublasLt epilogue * Added UTs to FLAGS_cublaslt_exhaustive_search_times * Added warmup runs in algo searching of Gemm epilogue. * Update copyright and documents. * Fixed error handling.
-
- 19 4月, 2022 1 次提交
-
-
由 WangXi 提交于
-
- 16 4月, 2022 1 次提交
-
-
由 王明冬 提交于
-
- 09 4月, 2022 1 次提交
-
-
由 limingshu 提交于
* Using the maximum workspace_size of all alogirhms to limit the workspace size in exhaustive search mode. * Use the system cudaMalloc and cudaFree to allocate workspace during searching. * Enable switch of two kind of workspace setting methods. Co-authored-by: NLiu Yiqun <liuyiqun01@baidu.com>
-
- 28 3月, 2022 1 次提交
-
-
由 danleifeng 提交于
* add fused_seqpool_cvm op;test=develop
-
- 19 3月, 2022 1 次提交
-
-
由 hong 提交于
* add infer meta; test=develop * add histogram infer meta; test=develop * fix unitest bug; test=develop * format; test=develop * format; test=develop * bn not use new infer meta; test=develop * add infer meta; test=develop * fixbug; test=develop * fix bug; * recover unitest; test=develop
-