1. 27 10月, 2022 1 次提交
  2. 14 10月, 2022 1 次提交
  3. 30 7月, 2022 1 次提交
  4. 28 7月, 2022 1 次提交
    • T
      Trajepl/nebula ckpt engine (#2085) · e669aaf5
      trajep 提交于
      * enable checkpoint engine
      
      * seprated nebula config
      
      * add __init__.py for nebula importing
      
      * linter fix
      
      * fix: ds_config is None
      
      * fix: ds config
      
      * fix: get sd loader fix
      
      * align the API with torch raw code
      
      * linter fix
      
      * remove duplicate tag params
      
      * make checkpoint_engine as required args
      
      * fix args
      
      * extract parameters out to config
      
      * fix: load state dict
      
      * separate load engine
      
      * linter fix
      
      * extract checkpoint engine to abstract calss
      
      * linter fix
      
      * construct function args fix
      
      * add docs for dev/customers
      
      * linter fix
      
      * remove load engine
      
      * print->log_dist
      
      * linter fix
      
      * add tag flag to distinguish the loading order
      Co-authored-by: NOlatunji Ruwase <olruwase@microsoft.com>
      Co-authored-by: NMichael Wyatt <michaelwyatt@microsoft.com>
      Co-authored-by: NJeff Rasley <jerasley@microsoft.com>
      e669aaf5
  5. 19 5月, 2022 1 次提交
  6. 15 3月, 2022 1 次提交
  7. 09 2月, 2022 1 次提交
  8. 28 1月, 2022 1 次提交
  9. 27 1月, 2022 1 次提交
  10. 20 1月, 2022 1 次提交
  11. 13 1月, 2022 1 次提交
  12. 18 11月, 2021 1 次提交
  13. 13 11月, 2021 1 次提交
  14. 03 11月, 2021 1 次提交
  15. 02 10月, 2021 1 次提交
  16. 21 4月, 2021 1 次提交
  17. 19 4月, 2021 2 次提交
  18. 14 4月, 2021 1 次提交
  19. 07 4月, 2021 1 次提交
  20. 17 3月, 2021 1 次提交
  21. 10 3月, 2021 1 次提交
  22. 09 3月, 2021 1 次提交
  23. 16 1月, 2021 1 次提交
  24. 18 12月, 2020 1 次提交
  25. 10 9月, 2020 1 次提交
  26. 02 9月, 2020 1 次提交
  27. 19 8月, 2020 1 次提交
  28. 14 8月, 2020 1 次提交
  29. 18 6月, 2020 1 次提交
  30. 05 6月, 2020 1 次提交
    • C
      Add log util (#230) · e1ad8803
      Chunyang Wen 提交于
      * Add log util
      
      * replace all occurrences of print and logging
      
      * address format
      
      * disable propagate to avoid duplicate log
      e1ad8803
  31. 30 5月, 2020 1 次提交
  32. 23 3月, 2020 1 次提交
  33. 11 3月, 2020 1 次提交
  34. 04 3月, 2020 1 次提交
  35. 27 2月, 2020 1 次提交
    • J
      MPI 3.x support via mpi4py (#107) · 7e813283
      Jeff Rasley 提交于
      * add mpirun support for openmpi 4.0
      
      * add master addr support from args
      
      * switch mpi detection to use mpi4py
      
      * set constant for default distributed port
      
      * Make sure deepspeed_mpi exits in args
      7e813283
  36. 21 2月, 2020 1 次提交
  37. 20 2月, 2020 1 次提交
  38. 04 2月, 2020 1 次提交
  39. 01 2月, 2020 1 次提交