1. 02 8月, 2023 1 次提交
  2. 26 7月, 2023 1 次提交
  3. 22 7月, 2023 2 次提交
  4. 21 7月, 2023 1 次提交
  5. 18 7月, 2023 2 次提交
  6. 17 7月, 2023 1 次提交
  7. 15 7月, 2023 1 次提交
  8. 13 7月, 2023 2 次提交
  9. 12 7月, 2023 2 次提交
  10. 05 7月, 2023 1 次提交
  11. 04 7月, 2023 2 次提交
  12. 30 6月, 2023 1 次提交
  13. 29 6月, 2023 2 次提交
  14. 28 6月, 2023 2 次提交
  15. 27 6月, 2023 1 次提交
  16. 21 6月, 2023 1 次提交
  17. 19 6月, 2023 1 次提交
  18. 16 6月, 2023 1 次提交
  19. 14 6月, 2023 1 次提交
    • P
      support sharding stage1 (#54069) · 974676bc
      pangengzheng 提交于
      * support sharding stage1
      
      * fix unittest
      
      * format
      
      * pass sharded sharding params_and_grads to inner_opt apply_pptimize
      
      * change sharding gradient allreduce to reduce
      
      * support save state_dict adptively and support sharding with mp
      
      * fix sharding test
      
      * test set_state_dict
      
      * add more unit test
      
      * fix global norm of mp case
      
      * polish
      
      * hack to calculate global norm in order to remove diff in calculating global norm values in HybridParallelClipGrad compared to dp
      
      * remove print
      974676bc
  20. 13 6月, 2023 3 次提交
  21. 08 6月, 2023 5 次提交
  22. 05 6月, 2023 1 次提交
  23. 01 6月, 2023 1 次提交
  24. 29 5月, 2023 1 次提交
  25. 26 5月, 2023 1 次提交
  26. 23 5月, 2023 2 次提交