[Ernie GPU Optimize]: Embedding_eltwise_layernorm Fuse (!22494) · 合并请求 · PaddlePaddle / Paddle

[Ernie GPU Optimize]: Embedding_eltwise_layernorm Fuse !22494

Created by: NHZlX

This PR adds an emb_eltwise_layernorm OP, which is only for inference, so we banned backward's unit test. At the same time, we adjust ut precision to 1e-4

Fuse the embedding eltwise_add layernorm OPs to a single OP. Under cuda10.1 p4 card, the normal ernie model performance is improved from 9.5ms to 8.4ms.

Original:

After Fuse:

In this pr, we also do the following optimization:

refine inplace_add_relu
refine fc_eltwise_layernorm (8.4ms -> 7.8ms) test=develop

PaddlePaddle / Paddle 1 年多 前同步成功

[Ernie GPU Optimize]: Embedding_eltwise_layernorm Fuse !22494

PaddlePaddle / Paddle
1 年多前同步成功