PaddleMT/transformer 对海量数据的处理不友好
Created by: ganfoubudalian
1.tensor2tensor和fairseq都是在训练前加了一个预处理,把token转id了,然后后面直接读进来就是id
2. paddle这里是预处理和训练耦合在一起了,先把整个训练数据全部load进来转成id存放在内存,然后再训练;
3.这个对小数量的训练集没影响,但是海量数据的时候就不友好了,需要先切片文件,然后对不同的文件重启训练,并且在训练的时候重启训练,都会重新加载全量数据