【discuss】分布式paddle性能问题,cpu集群
Created by: pkuyym
具体场景如下:
- 使用一个单元的simple_gru2网络,在cpu集群上运行
2.输入数据为序列(长度为2个词),然后预测第3个词,词表大小为200万
3.训练节点采用100,单个节点batch_size为2000,trainer_count为32,优化方法为momentum sync
4.每个节点cpu利用率比较低
现在训练速度为 9.3s训练1万样本,非常慢,请问这个性能是否符合预期,有没有优化的建议?