Created by: tensor-tang
最近测试analyer_test的时候发现, 编译了GPU的Paddle比纯CPU的Paddle 速度下降约45%。
比如在 ef2da86b 1.35305 => 1.97693