1. 01 7月, 2022 1 次提交
    • L
      Addition of switch_auto_tune option for transpose op (#43310) · 53d5abe3
      limingshu 提交于
      * 2nd part of transpose update
      
      * add switch_auto_tune option.
      
      * add some changes according to Ci
      
      * refine the structure of auto_tune_base.
      
      * merge develop changes
      
      * reset the switch_set_range and change unittest of transpose auto-tune
      
      * change the kernel auto-tune logits
      53d5abe3
  2. 30 6月, 2022 2 次提交
  3. 28 6月, 2022 1 次提交
  4. 26 6月, 2022 1 次提交
  5. 21 6月, 2022 1 次提交
  6. 20 6月, 2022 2 次提交
  7. 17 6月, 2022 1 次提交
  8. 15 6月, 2022 1 次提交
  9. 14 6月, 2022 1 次提交
  10. 10 6月, 2022 1 次提交
  11. 09 6月, 2022 1 次提交
  12. 08 6月, 2022 1 次提交
  13. 07 6月, 2022 1 次提交
  14. 05 6月, 2022 2 次提交
  15. 04 6月, 2022 1 次提交
  16. 02 6月, 2022 2 次提交
  17. 01 6月, 2022 1 次提交
  18. 31 5月, 2022 1 次提交
  19. 30 5月, 2022 2 次提交
  20. 27 5月, 2022 1 次提交
  21. 25 5月, 2022 1 次提交
  22. 24 5月, 2022 1 次提交
  23. 20 5月, 2022 1 次提交
  24. 17 5月, 2022 1 次提交
  25. 16 5月, 2022 2 次提交
  26. 12 5月, 2022 1 次提交
  27. 06 5月, 2022 1 次提交
  28. 02 5月, 2022 1 次提交
  29. 28 4月, 2022 3 次提交
  30. 26 4月, 2022 1 次提交
  31. 22 4月, 2022 1 次提交
    • M
      [WIP] Algorithm Cache of cuBlasLt Epilogue (#41010) · 19650d72
      Ming-Xu Huang 提交于
      * Fix leading dimension setting error in fused_gemm_epilogue_grad_op.
      
      * Add dyload to cuBlasLt functions.
      
      * Added cublasLtMatmulAlgoGetHeuristic to improve performance.
      
      * Added FLAGS_cublaslt_exhaustive_search_times to cublasLt epilogue
      
      * Added UTs to FLAGS_cublaslt_exhaustive_search_times
      
      * Added warmup runs in algo searching of Gemm epilogue.
      
      * Update copyright and documents.
      
      * Fixed error handling.
      19650d72
  32. 19 4月, 2022 1 次提交