1. 15 11月, 2021 1 次提交
  2. 28 10月, 2021 1 次提交
  3. 27 10月, 2021 1 次提交
    • L
      Add fused attention op backward and python layer. (#36498) (#36752) · 64643d50
      Li Min 提交于
      功能:本PR的目标是提高attention模块的计算性能。
      为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op;
      为了减少防存开销,本PR采取了两种优化方法:
      (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次;
      (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
      64643d50
  4. 26 10月, 2021 3 次提交
    • Z
      [cherry pick] add op: fused_feedforward(backward) (#36730) · 76c1bae1
      zhangkaihuo 提交于
      * add op: fused_feedforward(backward) (#35611)
      
      这个PR是fused_feedforward反向的代码
      
      相关kernel实现:fused_dropout_act_bias, fused_residual_dropout_bias, fused_layernorm_residual_dropout_bias
      
      fused_feedforward是一个融合算子,该算子对transformer模型的feed forward层的算子进行融合和封装,使得前端只呈现一个接口,通过融合减少部分访存和kernel launch的时间,以此提升性能。
      
      * Move fused_attention and fused_feedforward functional api path to incubate (#36704)
      
      将 #35905 和 #35843 PR中新增的的python api接口移到incubate目录下。
      76c1bae1
    • Z
      [cherry-pick]add op: fused_feedforward(forward) (#36729) · 77034fc3
      zhangkaihuo 提交于
      This is a fusion operator to compute feed forward layer in transformer model architecture.
      77034fc3
    • L
      [cherry-pick-2.2] Fused attention op forward (#35905) (#36708) · d2be870a
      Li Min 提交于
      功能:本PR的目标是提高attention模块的计算性能。
      为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op;
      为了减少防存开销,本PR采取了两种优化方法:
      (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次;
      (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
      d2be870a
  5. 25 10月, 2021 2 次提交
    • L
      Add fused_attention_op: add impl wrappers. (#35903) (#36673) · 8c0bacd4
      Li Min 提交于
      功能:本PR的目标是提高attention模块的计算性能。
      为了减少框架层对op的调度开销,本PR通过在C++层手动实现attention模块,对外提供attention 大op;
      为了减少防存开销,本PR采取了两种优化方法:
      (1)在q,k,v计算时通过共享输入X,将该处的gemm,transpose和bias add从三次调用减少为一次;
      (2)使用kernel融合优化技术,在不同cuda kernel之间通过寄存器传输数据;
      8c0bacd4
    • L
      Add fused_dropout wrapper to ease use. (#36185) (#36640) · 05d7e2fd
      Li Min 提交于
      In fused_attention op and fused_ffn op, the fused bias_add+dropout+residual+layernorm kernel or bias_add+dropout+residual kernel is used. To ease the use of this kernel, we provide a wrapper in this PR.
      1.To reuse the increment computing code, we exact the corresponding code to "GetSeedDataAndIncrement" routine in dropout_impl_util.h.
      2.The fused_dropout_helper.h provides the fused dropout kernel wrapper.
      
      Note: the test of this warper will be provided in the following fused_attention_op and fused_ffn PRs.
      05d7e2fd
  6. 22 10月, 2021 1 次提交
  7. 17 9月, 2021 2 次提交
  8. 16 9月, 2021 1 次提交
  9. 14 9月, 2021 1 次提交
  10. 13 9月, 2021 2 次提交
  11. 09 9月, 2021 1 次提交
  12. 08 9月, 2021 1 次提交
  13. 06 9月, 2021 1 次提交
  14. 03 9月, 2021 1 次提交
  15. 26 8月, 2021 1 次提交
    • L
      Add feed_forward for fused attention op. (#34945) · d1a33bc7
      Li Min 提交于
      Describe
      
      Add feed_forward for fused attention op.
      (1) Encapsulate matmul impl (forward and backward) used in attention op.
      (2) Implement bias_add (forward and backward) used in attention op.
      d1a33bc7
  16. 23 8月, 2021 1 次提交
    • L
      Refactor the organization of layer_norm cuda impl. (#34883) · 7f5eb533
      Li Min 提交于
      Refactor the organization of layer_norm cuda impl so that it can be reused in fused attention op.
      
          Extract the layer_norm cuda impl form layer_norm_op.cu to layer_norm_kernel.cu.h.
          Define fused/attention_layer_norm.h, which can be used in fused attention op in next PR.
      7f5eb533
  17. 12 8月, 2021 1 次提交
  18. 05 7月, 2021 1 次提交
  19. 12 6月, 2021 1 次提交
  20. 14 5月, 2021 1 次提交
    • K
      Fix four error messages (#32899) · c4787d76
      Kqnonrime 提交于
      * fix two error message
      
      * fix two error message
      
      * fix error
      
      * fix error
      
      * fix error
      
      * fix error
      
      * fix some error message
      
      * fix some error
      
      * fix error
      
      * fix some error
      
      * fix some error
      
      * fix some error
      
      * fix one error
      
      * fix some error
      
      * fix seven error message
      
      * fix error
      
      * fix error
      
      * fix error
      
      * fix error
      
      * fix some error message
      
      * fix error
      
      * fix some error
      
      * fix some error
      
      * fix four error message
      
      * fix error
      
      * fix error
      c4787d76
  21. 06 5月, 2021 1 次提交
    • R
      [ROCM] bugfix for unittest (#32392) · 31392627
      ronnywang 提交于
      * fix test_unpool_op
      
      * fix test_inplace_addto_strategy
      
      * fix test_conv2d_fusion_op
      
      * fix test_imperative_lod_tensor_to_selected_rows, test_imperative_selected_rows_to_lod_tensor
      
      * fix test_dot_op
      
      * fix test_correlation_op
      
      * fix tracer
      
      * fix test_memcpy_op
      31392627
  22. 15 4月, 2021 1 次提交
  23. 30 3月, 2021 1 次提交
  24. 26 3月, 2021 1 次提交
  25. 04 3月, 2021 1 次提交
  26. 03 3月, 2021 1 次提交
  27. 19 2月, 2021 1 次提交
  28. 27 1月, 2021 1 次提交
    • J
      REUPLOAD Added vanilla LSTM and LSTM with peepholes oneDNN fp32 kernel (#30719) · f8da5536
      jakpiase 提交于
      * added external reorder to profiler
      
      * resolved conflict
      
      * added enable_static
      
      * initial version of lstm, not working yet
      
      * added lstm to operators.cmake
      
      * added vanilla lstm mkldnn op
      
      * added peephole weights integration
      
      * minor changes
      
      * added formatting
      
      * added fusion_lstm_mkldnn to static_whitelist
      
      * added formatting
      
      * removed comment
      
      * moved use_peepholes attribute inside is_cached block
      
      * reverted wrong changes
      
      * minor formatting change
      
      * minor changes
      
      * changed stream handling
      
      * minor change
      
      * added datatype to GetExpectedKernelType()
      
      * added reading stream from TLS
      f8da5536
  29. 26 1月, 2021 2 次提交
  30. 25 1月, 2021 2 次提交
  31. 11 1月, 2021 3 次提交