Created by: zhanghan1992
Ernie 在实体识别数据上 finetuning,使用linear_chain_crf计算loss, 单卡正常收敛,同配置下多卡收敛慢,并出现loss为nan。