softmax_with_cross_entropy CPU/GPU版本实现不一致
Created by: wangxicoding
https://github.com/PaddlePaddle/Paddle/blob/fff270eacd83384ad9a62db1af38d7db65dd2cd3/paddle/fluid/operators/softmax_with_cross_entropy_op.h#L59-L63
GPU版本是按照合并简化后公式(下图)实现的,CPU版本目前还是按照softmax + cross_entropy分开的方式计算,需要按合并简化后的公式计算,提升数值稳定性。