前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
Created by: fyubang
多卡做ernie语言模型任务的fine tune的时候,经常遇到,运行到一定步数就卡住的情况,卡住的时候,多卡中的部分卡依旧100%,部分卡0%。并且卡的步数没有规律。同步并不报错,怀疑是nccl的问题。运行坏境是8卡p40。 卡住时,gpu这样: 日志: 脚本的超参: 挺多人遇到类似问题的。