输入的lod的数据pad和unpad对训练速度的影响
Created by: wxlu
假设我的数据是一个lod的句子
a = [word_a1, word_a2, ..., word_an]
然后我同一个batch内句子的长度变化比较大,我想在rnn与attention之间来回切换,因为rnn对lod建模比较友好,attention对padding的tensor建模比较友好,所以这个过程会有pad与unpad之间的切换,麻烦问下,怎么操作训练的速度会比较快。
问题细化1: 我的问题是直接对lod的tensor进行attention的操作快呢,还是padding之后再进行attention的操作快。如果是直接对lod的tensor进行attention的操作快有没有什么demo呢?我看到的attention的demo都是针对padding后的定长的tensor进行attentioin.