PaddleMT/transformer 对海量数据的处理不友好 (#4208) · Issue · PaddlePaddle / models

PaddleMT/transformer 对海量数据的处理不友好

Created by: ganfoubudalian

1.tensor2tensor和fairseq都是在训练前加了一个预处理，把token转id了，然后后面直接读进来就是id 2. paddle这里是预处理和训练耦合在一起了，先把整个训练数据全部load进来转成id存放在内存，然后再训练； 3.这个对小数量的训练集没影响，但是海量数据的时候就不友好了，需要先切片文件，然后对不同的文件重启训练，并且在训练的时候重启训练，都会重新加载全量数据

PaddlePaddle / models 大约 2 年 前同步成功

PaddleMT/transformer 对海量数据的处理不友好

PaddlePaddle / models
大约 2 年前同步成功