recurrent layer group 训练和生成时输出 attention weight,生成时输出每个词的概率
Created by: lcy-seso
目前应用中对layer_group
有以下功能要求,需要支持:
- 生成阶段留下每个时间步的概率(目前只留下了整个生成序列概率的log prob 之和)。
- 生成阶段 attention weight 每个时间步是一个序列,目前
RecurrentLayerGroup
只能输出非 sequence 层,作为整个lRecurrentLayerGroup
的输出。