paddle/phi/kernels/gpu/fill_kernel.cu · 0b39b244f1567f5fb8dc89e888ded57f5daf792c · PaddlePaddle / Paddle

Support BF16 training for sharding (#46846) · 0b39b244

由 Ghost Screaming 提交于 10月 17, 2022

* Fix bug of reduce_sum op. When input.numel() > INT32_MAX, its result
is wrong.

* support pure bfloat16

* support bf16 linear

* update PR to pass CI

* tiny fix where_grad_kernel.cu

* Support bfloat16 type for reducer and sharding.

* Fix some bug.

* Polish code.

* Polise code.

* Add bfloat16 datatype in fill_grad kernels.
Co-authored-by: Nsneaxiy <sneaxiy@126.com>

0b39b244

fill_kernel.cu 1.1 KB

PaddlePaddle / Paddle 大约 1 年 前同步成功

Replace fill_kernel.cu

PaddlePaddle / Paddle
大约 1 年前同步成功