Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Greenplum
DeepSpeed
提交
3432c740
D
DeepSpeed
项目概览
Greenplum
/
DeepSpeed
上一次同步 大约 1 年
通知
10
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DeepSpeed
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
3432c740
编写于
10月 28, 2022
作者:
郭叶军
提交者:
GitHub
10月 27, 2022
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
deepspeed/launcher/launch.py: add option '--enable_each_rank_log logdir' (#2409)
上级
be4ffb82
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
33 addition
and
1 deletion
+33
-1
deepspeed/launcher/launch.py
deepspeed/launcher/launch.py
+33
-1
未找到文件。
deepspeed/launcher/launch.py
浏览文件 @
3432c740
...
...
@@ -92,6 +92,12 @@ def parse_args():
default
=
0
,
help
=
"main launching process pid, for internal pid tracking"
)
parser
.
add_argument
(
"--enable_each_rank_log"
,
default
=
"None"
,
type
=
str
,
help
=
"redirect the stdout and stderr from each rank into different log files"
)
# positional
parser
.
add_argument
(
"training_script"
,
type
=
str
,
...
...
@@ -197,6 +203,22 @@ def main():
cmd
=
[]
if
not
args
.
enable_elastic_training
:
if
args
.
enable_each_rank_log
!=
"None"
:
# prepare the log path and the file name prefix
if
os
.
path
.
isfile
(
args
.
enable_each_rank_log
):
raise
ValueError
(
f
"
{
args
.
enable_each_rank_log
}
should not be a file, it should be a directory."
)
if
not
os
.
path
.
exists
(
args
.
enable_each_rank_log
):
try
:
os
.
makedirs
(
args
.
enable_each_rank_log
)
except
Exception
as
e
:
print
(
e
)
raise
ValueError
(
f
"unable to create directory
{
args
.
enable_each_rank_log
}
for each rank log."
)
log_name_prefix
=
time
.
strftime
(
"%Y%m%d%H%M%S"
,
time
.
localtime
())
for
local_rank
in
range
(
0
,
num_local_procs
):
# each process's rank
dist_rank
=
global_rank_mapping
[
local_node
][
local_rank
]
...
...
@@ -219,7 +241,17 @@ def main():
cmd
.
append
(
f
"--local_rank=
{
local_rank
}
"
)
cmd
+=
args
.
training_script_args
process
=
subprocess
.
Popen
(
cmd
,
env
=
current_env
)
if
args
.
enable_each_rank_log
!=
"None"
:
log_file
=
os
.
path
.
join
(
args
.
enable_each_rank_log
,
f
"
{
log_name_prefix
}
_rank
{
dist_rank
}
.log"
)
log_fd
=
open
(
log_file
,
'w'
)
process
=
subprocess
.
Popen
(
cmd
,
env
=
current_env
,
stdout
=
log_fd
,
stderr
=
log_fd
)
else
:
process
=
subprocess
.
Popen
(
cmd
,
env
=
current_env
)
processes
.
append
(
process
)
else
:
from
..elasticity
import
DSElasticAgent
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录