Created by: wxl1351641822
就是那个再训练时用dropout,而预测时,不是跟训练一样直接舍弃一部分,候是所有的都用,只在过dropout的时候乘概率——这个处理,我想问一下文本分类的那个task里是否已经做了?我貌似没有看到……