1. 29 12月, 2021 1 次提交
  2. 27 12月, 2021 1 次提交
  3. 24 12月, 2021 1 次提交
  4. 23 12月, 2021 1 次提交
  5. 22 12月, 2021 1 次提交
  6. 16 12月, 2021 1 次提交
    • L
      Add sparse_attention mask ,test=develop (#37973) · fa463b90
      Liu-xiandong 提交于
      Add key_padding_mask and attn_mask in sparse_attention Api
      
      1.Key padding mask is a tensor with dimensions [batch_size, seq_len], and attention mask is a tensor with dimensions [seq_len, seq_len]. The data types of the two masks are consistent with Q, K, and V, which are float32 or float64. If the value in Mask is 0, it means that the position needs to be masked.
      
      2.The changed files are mainly paddle/fluid/operators/sparse_attention_op.cu and python/paddle/fluid/tests/unittests/test_sparse_attention_op.py. sparse_attention has three parts: sddmm, softmax, and dsd. Adding the mask operation only needs to modify the softmax. It has no effect on the other two parts. In addition, in order to test the mask function, related tests has been added.
      fa463b90
  7. 15 12月, 2021 1 次提交
    • Skr.B's avatar
      Add New API nn.HingeEmbeddingLoss (#37540) · 3b85864a
      Skr.B 提交于
      * add hinge_embedding_loss
      
      * fix test_API
      
      * test_API succeed
      
      * add English doc
      
      * fixed using of expired fluid api
      
      * fix doc
      
      * fix doc and rm python/paddle/fluid/layers/loss.py
      
      * get raw python/paddle/fluid/layers/loss.py back
      
      * fix Examples bug in English doc
      
      * unique -> flatten
      
      * fix api code
      
      * fix English doc
      
      * fix functional loss English doc
      
      * fix Example doc
      
      * .numpy() -> paddle.unique()
      
      * fix unique
      
      * fix label_item_set
      
      * modified judgment equation
      
      * Got a beautiful loss equation
      
      * use paddle.to_tensor
      
      * fix loss and add static check
      
      * fix loss and add static check
      
      * delta -> margin
      3b85864a
  8. 10 12月, 2021 1 次提交
  9. 07 12月, 2021 1 次提交
  10. 30 11月, 2021 1 次提交
  11. 26 11月, 2021 1 次提交
    • S
      Fix dropout static when axis != None (#37223) · f25fda37
      smallv0221 提交于
      * fix dropout static when axis != None
      
      * update dropout test
      
      * add dropout test
      
      * fix test
      
      * Update test_dropout_op.py
      
      * Update test_dropout_op.py
      
      * fix testcase
      
      * fix testcase
      
      * Update test_dropout_op.py
      
      * fix testcase
      
      * fix testcase
      
      * optimize perf
      
      * add new test
      
      * fix testcase
      f25fda37
  12. 25 11月, 2021 2 次提交
  13. 22 11月, 2021 1 次提交
  14. 19 11月, 2021 1 次提交
  15. 18 11月, 2021 1 次提交
  16. 15 11月, 2021 1 次提交
  17. 12 11月, 2021 1 次提交
  18. 28 10月, 2021 1 次提交
  19. 26 10月, 2021 2 次提交
    • L
      Add fused attention op backward and python layer. (#36498) · 5119428e
      Li Min 提交于
      功能:本PR的目标是提高attention模块的计算性能。
      为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op;
      为了减少防存开销,本PR采取了两种优化方法:
      (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次;
      (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
      5119428e
    • L
      Move fused_attention and fused_feedforward functional api path to incubate (#36704) · 9aeca2f1
      Li Min 提交于
      将 #35905 和 #35843 PR中新增的的python api接口移到incubate目录下。
      9aeca2f1
  20. 25 10月, 2021 1 次提交
    • Z
      add op: fused_feedforward(forward) (#35843) · b18cbfb2
      zhangkaihuo 提交于
      这个PR只包含fused_feedforward前向的代码。
      
      相关kernel实现:fused_dropout_act_bias, fused_residual_dropout_bias, fused_layernorm_residual_dropout_bias
      
      fused_feedforward是一个融合算子,该算子对transformer模型的feed forward层的算子进行融合和封装,使得前端只呈现一个接口,通过融合减少部分访存和kernel launch的时间,以此提升性能。
      b18cbfb2
  21. 22 10月, 2021 1 次提交
    • L
      Fused attention op forward (#35905) · d4906214
      Li Min 提交于
      功能:本PR的目标是提高attention模块的计算性能。
      为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op;
      为了减少防存开销,本PR采取了两种优化方法:
      (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次;
      (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
      d4906214
  22. 19 10月, 2021 1 次提交
  23. 18 10月, 2021 1 次提交
  24. 13 10月, 2021 2 次提交
  25. 12 10月, 2021 6 次提交
  26. 11 10月, 2021 1 次提交
  27. 24 9月, 2021 1 次提交
  28. 21 9月, 2021 1 次提交
  29. 17 9月, 2021 1 次提交
  30. 15 9月, 2021 3 次提交