paddle单机多卡加速比不高以及profile
Created by: dashulu
paddle 2卡,4卡,8卡跑vgg模型时,每秒处理图像分别为216张/sec, 341张/sec,408张/sec。4卡到8卡加速比仅为1.2,请问这个会是什么原因?如何提高加速比?
利用paddle profile工具进行分析,前三占比的op数据如下: 2卡
Event | Calls | Total | Min. | Max. | Ave. | Ratio. |
---|---|---|---|---|---|---|
thread0::elementwise_add | 1320 | 3744.65 | 0.009216 | 78.4374 | 2.83686 | 0.481853 |
thread0::conv2d_grad | 320 | 1143.44 | 1.34246 | 8.54323 | 3.57326 | 0.147136 |
thread0::all_reduce | 110 | 834.865 | 0.124928 | 78.5367 | 7.58968 | 0.107429 |
4卡
Event | Calls | Total | Min. | Max. | Ave. | Ratio. |
---|---|---|---|---|---|---|
thread0::elementwise_add | 1320 | 3415.35 | 0.009184 | 89.4362 | 2.58738 | 0.358557 |
thread0::conv2d_grad | 320 | 2056.93 | 2.62554 | 15.9181 | 6.42789 | 0.215944 |
thread0::all_reduce | 110 | 1052.51 | 0.172032 | 91.5722 | 9.56831 | 0.110497 |
8卡
Event | Calls | Total | Min. | Max. | Ave. | Ratio. |
---|---|---|---|---|---|---|
thread0::conv2d_grad | 320 | 4012.45 | 5.05446 | 30.4189 | 12.5389 | 0.30868 |
thread0::elementwise_add | 1320 | 2833.65 | 0.009216 | 90.7602 | 2.1467 | 0.217994 |
thread0::all_reduce | 110 | 1447.11 | 0.40448 | 93.2229 | 13.1555 | 0.111327 |
此处统计为5个迭代的数据,理论上每个GPU的conv2d_grad此处应为40,为什么现在不管使用几张GPU,conv2d_grad的次数都为320?