Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Greenplum
DeepSpeed
提交
4f1d827c
D
DeepSpeed
项目概览
Greenplum
/
DeepSpeed
上一次同步 大约 1 年
通知
10
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DeepSpeed
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
未验证
提交
4f1d827c
编写于
2月 04, 2021
作者:
S
Stas Bekman
提交者:
GitHub
2月 04, 2021
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
[launcher] look ma, no more zombies (#714)
Co-authored-by:
N
Jeff Rasley
<
jerasley@microsoft.com
>
上级
72b23ea3
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
40 addition
and
2 deletion
+40
-2
deepspeed/launcher/launch.py
deepspeed/launcher/launch.py
+40
-2
未找到文件。
deepspeed/launcher/launch.py
浏览文件 @
4f1d827c
...
...
@@ -13,6 +13,8 @@ import subprocess
import
os
import
json
import
base64
import
time
import
signal
from
collections
import
defaultdict
from
argparse
import
ArgumentParser
,
REMAINDER
...
...
@@ -122,11 +124,47 @@ def main():
args
.
training_script
,
"--local_rank={}"
.
format
(
local_rank
)
]
+
args
.
training_script_args
sig_names
=
{
2
:
"SIGINT"
,
15
:
"SIGTERM"
}
last_return_code
=
None
def
sigkill_handler
(
signum
,
frame
):
for
process
in
processes
:
print
(
f
"Killing subprocess
{
process
.
pid
}
"
)
try
:
process
.
kill
()
except
Exception
as
e
:
pass
if
last_return_code
is
not
None
:
raise
subprocess
.
CalledProcessError
(
returncode
=
last_return_code
,
cmd
=
cmd
)
if
signum
in
sig_names
:
print
(
f
"Main process received
{
sig_names
[
signum
]
}
, exiting"
)
sys
.
exit
(
1
)
# pass SIGINT/SIGTERM to children if the parent is being terminated
signal
.
signal
(
signal
.
SIGINT
,
sigkill_handler
)
signal
.
signal
(
signal
.
SIGTERM
,
sigkill_handler
)
process
=
subprocess
.
Popen
(
cmd
,
env
=
current_env
)
processes
.
append
(
process
)
for
process
in
processes
:
process
.
wait
()
alive_processes
=
set
(
processes
)
while
len
(
alive_processes
):
finished_processes
=
[]
for
process
in
alive_processes
:
if
process
.
poll
()
is
None
:
# the process is still running
continue
else
:
if
process
.
returncode
!=
0
:
last_return_code
=
process
.
returncode
# for sigkill_handler
sigkill_handler
(
signal
.
SIGTERM
,
None
)
# not coming back
else
:
# exited cleanly
finished_processes
.
append
(
process
)
alive_processes
=
set
(
alive_processes
)
-
set
(
finished_processes
)
time
.
sleep
(
1
)
if
__name__
==
"__main__"
:
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录