模型训练中途会自动中断。。
Created by: lmw0320
我用自己的数据集,训练识别模型。。 在本地的机子上跑,是正常的。 相同的代码,弄到服务器上跑,就有问题。。---服务器配置:11G显存,20G内存,win10系统 发现是设置batch-size为64或32,代码跑不起来,python一直没有占用cpu。。显存则有明显使用。。 设置为32的batch时,有时候可以跑起来,但是一两次迭代后,就自动停止了。。即使我降低batch-size到16,也是类似情况(python开始有明显占用cpu,达到10%+, 迭代几次后,就自动降低了,后面直接变成0).....显存占用什么的,都是正常的。。 另外,本地的机子上跑,(8G显存,32G内存,win10系统), batch-size设置的32, python占用cpu为13左右。。。 死活没想通是什么原因,无法在服务器上跑。。。