1. 25 10月, 2021 2 次提交
    • Z
      add op: fused_feedforward(backward) (#35611) · 2dd0a46a
      zhangkaihuo 提交于
      这个PR是fused_feedforward反向的代码
      
      相关kernel实现:fused_dropout_act_bias, fused_residual_dropout_bias, fused_layernorm_residual_dropout_bias
      
      fused_feedforward是一个融合算子,该算子对transformer模型的feed forward层的算子进行融合和封装,使得前端只呈现一个接口,通过融合减少部分访存和kernel launch的时间,以此提升性能。
      2dd0a46a
    • Z
      add op: fused_feedforward(forward) (#35843) · b18cbfb2
      zhangkaihuo 提交于
      这个PR只包含fused_feedforward前向的代码。
      
      相关kernel实现:fused_dropout_act_bias, fused_residual_dropout_bias, fused_layernorm_residual_dropout_bias
      
      fused_feedforward是一个融合算子,该算子对transformer模型的feed forward层的算子进行融合和封装,使得前端只呈现一个接口,通过融合减少部分访存和kernel launch的时间,以此提升性能。
      b18cbfb2
  2. 22 10月, 2021 1 次提交
    • L
      Fused attention op forward (#35905) · d4906214
      Li Min 提交于
      功能:本PR的目标是提高attention模块的计算性能。
      为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op;
      为了减少防存开销,本PR采取了两种优化方法:
      (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次;
      (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
      d4906214
  3. 21 10月, 2021 1 次提交
  4. 15 10月, 2021 1 次提交
  5. 14 10月, 2021 1 次提交
  6. 12 10月, 2021 1 次提交
  7. 11 10月, 2021 1 次提交
  8. 09 10月, 2021 1 次提交
  9. 29 9月, 2021 2 次提交
  10. 23 9月, 2021 1 次提交
  11. 22 9月, 2021 1 次提交
  12. 17 9月, 2021 2 次提交
  13. 16 9月, 2021 1 次提交
  14. 14 9月, 2021 1 次提交
  15. 13 9月, 2021 2 次提交
  16. 09 9月, 2021 1 次提交
  17. 08 9月, 2021 1 次提交
  18. 06 9月, 2021 1 次提交
  19. 03 9月, 2021 1 次提交
  20. 26 8月, 2021 1 次提交
    • L
      Add feed_forward for fused attention op. (#34945) · d1a33bc7
      Li Min 提交于
      Describe
      
      Add feed_forward for fused attention op.
      (1) Encapsulate matmul impl (forward and backward) used in attention op.
      (2) Implement bias_add (forward and backward) used in attention op.
      d1a33bc7
  21. 23 8月, 2021 1 次提交
    • L
      Refactor the organization of layer_norm cuda impl. (#34883) · 7f5eb533
      Li Min 提交于
      Refactor the organization of layer_norm cuda impl so that it can be reused in fused attention op.
      
          Extract the layer_norm cuda impl form layer_norm_op.cu to layer_norm_kernel.cu.h.
          Define fused/attention_layer_norm.h, which can be used in fused attention op in next PR.
      7f5eb533
  22. 12 8月, 2021 1 次提交
  23. 05 7月, 2021 1 次提交
  24. 12 6月, 2021 1 次提交
  25. 14 5月, 2021 1 次提交
    • K
      Fix four error messages (#32899) · c4787d76
      Kqnonrime 提交于
      * fix two error message
      
      * fix two error message
      
      * fix error
      
      * fix error
      
      * fix error
      
      * fix error
      
      * fix some error message
      
      * fix some error
      
      * fix error
      
      * fix some error
      
      * fix some error
      
      * fix some error
      
      * fix one error
      
      * fix some error
      
      * fix seven error message
      
      * fix error
      
      * fix error
      
      * fix error
      
      * fix error
      
      * fix some error message
      
      * fix error
      
      * fix some error
      
      * fix some error
      
      * fix four error message
      
      * fix error
      
      * fix error
      c4787d76
  26. 06 5月, 2021 1 次提交
    • R
      [ROCM] bugfix for unittest (#32392) · 31392627
      ronnywang 提交于
      * fix test_unpool_op
      
      * fix test_inplace_addto_strategy
      
      * fix test_conv2d_fusion_op
      
      * fix test_imperative_lod_tensor_to_selected_rows, test_imperative_selected_rows_to_lod_tensor
      
      * fix test_dot_op
      
      * fix test_correlation_op
      
      * fix tracer
      
      * fix test_memcpy_op
      31392627
  27. 15 4月, 2021 1 次提交
  28. 30 3月, 2021 1 次提交
  29. 26 3月, 2021 1 次提交
  30. 04 3月, 2021 1 次提交
  31. 03 3月, 2021 1 次提交
  32. 19 2月, 2021 1 次提交
  33. 27 1月, 2021 1 次提交
    • J
      REUPLOAD Added vanilla LSTM and LSTM with peepholes oneDNN fp32 kernel (#30719) · f8da5536
      jakpiase 提交于
      * added external reorder to profiler
      
      * resolved conflict
      
      * added enable_static
      
      * initial version of lstm, not working yet
      
      * added lstm to operators.cmake
      
      * added vanilla lstm mkldnn op
      
      * added peephole weights integration
      
      * minor changes
      
      * added formatting
      
      * added fusion_lstm_mkldnn to static_whitelist
      
      * added formatting
      
      * removed comment
      
      * moved use_peepholes attribute inside is_cached block
      
      * reverted wrong changes
      
      * minor formatting change
      
      * minor changes
      
      * changed stream handling
      
      * minor change
      
      * added datatype to GetExpectedKernelType()
      
      * added reading stream from TLS
      f8da5536
  34. 26 1月, 2021 2 次提交
  35. 25 1月, 2021 1 次提交