同一台多卡服务器,不同卡起多个任务报'SharedMemoryMgr' object has no attribute '_allocator'
已关闭
同一台多卡服务器,不同卡起多个任务报'SharedMemoryMgr' object has no attribute '_allocator'
Created by: imistyrain
df -h 和df -I检查过,都是有空间的 lsof |grep deleted 在启动第一个任务后显示很多占用,把第一个任务kill掉后消失 使用共享内存的方式加载数据导致无法同时训练多个任务,有没有什么好的解决方案?
Created by: qingqing01
@imistyrain 把memsize也设置小点试下呢?
还是不行,把共享内存的Queue换成普通的试下:
这段代码改成 ->:
#from .shared_queue import SharedQueue as Queue import multiprocessing from multiprocessing import Process as Worker from multiprocessing import Event #memsize = self._memsize #self._inq = Queue(bufsize, memsize=memsize) #self._outq = Queue(bufsize, memsize=memsize) self._inq = multiprocessing.Queue(bufsize) self._outq = multiprocessing.Queue(bufsize)
同时,注意,bufsize是按照batch存储的,YML里默认是设置供应8个卡的,如果你的GPU个数减少,可以适当的调小看下。
请注册或登录再回复