parameter server使用相关问题
Created by: jayhenry
- 分布式训练时,trainer0 init_from_tar获得初始化参数,会立刻推送到PS吗?
- 此时,其他 trainer{1,2} 需要执行 init_from_tar吗?
- 如果trainer{1,2}没有执行init_from_tar,会从PS读取参数吗?发生在什么时刻?
- 如果有3个PS,在训练过程中一个PS异常退出(内存不够或机器故障等),那么整个训练会失败吗?此时kubernetes重启一个新的PS可以继续训练吗?
- 每个worker和PS做交互是在什么时刻发生?每个batch 训练前拉取,训练后推送吗?