Created by: BeyondYourself
有的时候,在训练模型中,可能效果不理想,会执行手动停止训练,当前我这边只能通过kill的方式结束训练,但是短时间内如果多次kill掉同一训练服务后会出现内存、CPU/GPU不够用的现象,只有重启容器才能恢复正常。关于如何正确的中止训练有什么好的方法吗