为什么使用Paddle1.6训练bert模型内存用量比paddle 1.5高
Created by: dashulu
使用paddle 1.6进行https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/pretrain_language_models/BERT中语句和句对分类任务的fine-tuning训练,内存使用比paddle v1.5高很多。 paddle v1.5的内存用量:Theoretical memory usage in training: 5956.480 - 6240.122 MB paddle v1.6的内存用量:Theoretical memory usage in training: 18064.986 - 18925.223 MB. 这个是什么原因导致的?训练配置都是一样的。