1. 23 12月, 2022 1 次提交
  2. 12 12月, 2022 1 次提交
    • Optimization of Eigh op with ssyevj_batched runtime api (#48560) · 16e364d3
      傅剑寒 提交于
      * fix codestyle
      
      * add double complex<float> complex<double> dtype support for syevj_batched
      
      * fix use_syevj flag for precision loss when input dtype of syevj_batch is complex128 in some case
      
      * optimize eigh in different case
      
      * fix missing ; bug
      
      * fix use_syevj bug
      
      * fix use_cusolver_syevj_batched flag
      16e364d3
  3. 24 11月, 2022 1 次提交
  4. 15 11月, 2022 1 次提交
  5. 10 11月, 2022 1 次提交
  6. 03 11月, 2022 1 次提交
  7. 02 11月, 2022 1 次提交
  8. 19 10月, 2022 1 次提交
  9. 17 10月, 2022 1 次提交
  10. 18 9月, 2022 1 次提交
  11. 14 9月, 2022 1 次提交
  12. 01 8月, 2022 1 次提交
  13. 22 7月, 2022 1 次提交
  14. 18 7月, 2022 1 次提交
  15. 12 7月, 2022 1 次提交
  16. 28 6月, 2022 1 次提交
  17. 24 6月, 2022 2 次提交
  18. 18 6月, 2022 1 次提交
  19. 15 6月, 2022 2 次提交
  20. 13 6月, 2022 1 次提交
  21. 09 6月, 2022 1 次提交
  22. 05 6月, 2022 1 次提交
  23. 04 6月, 2022 1 次提交
  24. 04 5月, 2022 1 次提交
  25. 22 4月, 2022 1 次提交
    • M
      [WIP] Algorithm Cache of cuBlasLt Epilogue (#41010) · 19650d72
      Ming-Xu Huang 提交于
      * Fix leading dimension setting error in fused_gemm_epilogue_grad_op.
      
      * Add dyload to cuBlasLt functions.
      
      * Added cublasLtMatmulAlgoGetHeuristic to improve performance.
      
      * Added FLAGS_cublaslt_exhaustive_search_times to cublasLt epilogue
      
      * Added UTs to FLAGS_cublaslt_exhaustive_search_times
      
      * Added warmup runs in algo searching of Gemm epilogue.
      
      * Update copyright and documents.
      
      * Fixed error handling.
      19650d72
  26. 11 3月, 2022 1 次提交
  27. 28 2月, 2022 1 次提交
  28. 24 2月, 2022 1 次提交
  29. 22 2月, 2022 1 次提交
    • X
      change Vector to std::vector and provide MixVector class as a helper … (#39559) · 728c0624
      xiongkun 提交于
      * change Vector to std::vector and provide MixVector class as a helper wrapper class
      
      * solve the multi-gpu hang problem
      
      * remove the duplicate template instantialize
      
      * Copy vector to cpu
      
      * add CopyToCPU
      
      * xxx
      
      * final version: fix the problem of all reduce
      
      * remove mixvector dependence
      
      * fix
      
      * merge
      
      * fix code
      
      * fix by CI
      728c0624
  30. 20 2月, 2022 1 次提交