关于SRN的梯度传播问题
Created by: hao6699
你好, 我看在GRSM模块中, 设置了word_ids.stop_gradient = True, 这是否意味着GRSM模块的梯度流并不会传播到前面的网络中, 如PVAM和Backbone模块? 如果是, 那GRSM是不是相当于一个单独的模块, 并不依赖于前面网络的输出? 既然如此的话, 何不单独拿正确的标签来训练GRSM模块, 以得到更为准确的语义特征. 当然, GRSM模块的代码里包含了word_out, 需要用到前面层的输出, 但是我觉得它也可以归到PVAM模块中, 并不会影响单独GRSM的训练