PySequence_Check(seq_) 检测失败问题
Created by: Damon-wyg
Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msg F0801 17:12:41.648218 24026 PythonUtil.h:197] Check failed: PySequence_Check(seq_) 被这个PySequence_Check困扰很久了,问题情况是,完全一样的配置在本地跑没有任何问题,但是放到mpi集群跑,有时候就会挂,报检测失败的问题。 最头痛的是,这并不是每次都可以复现,像是随机的。 我的数据输出格式是一个字典:比如{‘input1‘:[],’input2’:[], 'label':0} (其中label是integer,所以不是sequence) 另外一个情况是,在使用dropout或l1/l2正则系数的时候,这种问题出现就更频繁了 查看代码和之前的issue,也并没有得到实质性的解决,请帮忙解释这个检测的原理,及出现随机现象的原因,谢谢
ps:在集群上paddle因为这种原因挂了的任务,也不会自己kill,而且还占用资源,这个是不是也可以优化下