- 19 11月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 18 11月, 2022 3 次提交
-
-
由 Wen Sun 提交于
-
由 james 提交于
* correct sync behavior for XPU distributed training XPU support event mechanism similar to cuda event, so it is advisable to use an event to sync compute/comm streams for performance. However this mechanism is never fully tested, and inconsistent loss/ending_epochs are reported. Therefore, this PR replaces event sync with stream waiting as a temporary solution. * remove compile warning
-
由 james 提交于
* fix device id issue for xpu eager xpu device id is not correctly set in eager mode, thus vars are on dev0 unless XPUDeviceGurad is called, leading to this error message for all node rank != 0: "NotImplementedError: (Unimplemented) Place Place(xpu:0) is not supported." * fix typo * fix pybind error
-
- 17 11月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 16 11月, 2022 1 次提交
-
-
由 Wen Sun 提交于
* refactor: update pg custom * fix: use new api in ut * fix: typo * revert: recover legacy apis * fix: add GetDeviceContext
-
- 14 11月, 2022 3 次提交
- 10 11月, 2022 2 次提交
-
-
由 james 提交于
* XPU support eager mode * add unittest for XPU eager mode * minor bugfix * minor bugfix, test=kunlun * correct copyright info * 1. remove unsed vars/funcs 2. ProcessGroupBKCL inherit from ProcessGroupStream * bugfix for fp16 in eager mode multi-card, test=kunlun * rebase & fix a few issues * use new processgroup interface, test=kunlun * fix compile issue, test=kunlun
-
由 Wen Sun 提交于
* refactor: send, recv, send_partial, recv_partial * refactor: rm useless const ref
-
- 09 11月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 08 11月, 2022 1 次提交
-
-
由 LiYuRio 提交于
-
- 07 11月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 04 11月, 2022 2 次提交
- 01 11月, 2022 1 次提交
-
-
由 Yuang Liu 提交于
-
- 31 10月, 2022 1 次提交
-
-
由 ronnywang 提交于
* [CustomDevice] GetCCLComm add custom device support * update * update * update
-
- 28 10月, 2022 2 次提交
-
-
由 Haohongxiang 提交于
-
由 Haohongxiang 提交于
* fix no sync bugs * update * update task chain fix: update wait chain feat: add `GetDeviceContext` for gloo * fix oom * fix dev * update * update Co-authored-by: NLiYuRio <liyuruijx@163.com> Co-authored-by: NForFishes <2282912238@qq.com>
-
- 17 10月, 2022 1 次提交
-
-
由 Ghost Screaming 提交于
* Fix bug of reduce_sum op. When input.numel() > INT32_MAX, its result is wrong. * support pure bfloat16 * support bf16 linear * update PR to pass CI * tiny fix where_grad_kernel.cu * Support bfloat16 type for reducer and sharding. * Fix some bug. * Polish code. * Polise code. * Add bfloat16 datatype in fill_grad kernels. Co-authored-by: Nsneaxiy <sneaxiy@126.com>
-
- 11 10月, 2022 2 次提交
- 10 10月, 2022 1 次提交
-
-
由 LiYuRio 提交于
-
- 08 10月, 2022 1 次提交
-
-
由 Haohongxiang 提交于
-
- 30 9月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 29 9月, 2022 1 次提交
-
-
由 Xinger 提交于
-
- 21 9月, 2022 1 次提交
-
-
由 wuhuachaocoding 提交于
-
- 16 9月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 07 9月, 2022 1 次提交
-
-
由 LiYuRio 提交于
-
- 06 9月, 2022 1 次提交
-
-
由 Wen Sun 提交于
-
- 01 9月, 2022 1 次提交
-
-
由 sneaxiy 提交于
* make dense_contents_ lazy init * update legacy dygraph * fix legacy dygraph bug
-
- 31 8月, 2022 1 次提交
-
-
由 LiYuRio 提交于
-
- 26 8月, 2022 1 次提交
-
-
由 danleifeng 提交于
-
- 25 8月, 2022 1 次提交
-
-
由 danleifeng 提交于
* update brpc version;test=develop
-
- 22 8月, 2022 1 次提交
-
-
由 ronnywang 提交于
-
- 12 8月, 2022 1 次提交
-
-
由 LiYuRio 提交于
-
- 08 8月, 2022 1 次提交
-
-
由 ShenLiang 提交于
-
- 03 8月, 2022 1 次提交
-
-
由 ronnywang 提交于
* [CustomDevice] add custom ccl 2/2 * update * update * update launch
-
- 01 8月, 2022 1 次提交
-
-
由 Leo Chen 提交于
* remove cudaDeviceContext * remove more template * fix rocm compile * remove alias name CUDADeviceContext * fix compile * fix tests * revert changes
-