Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
机器未来
Paddle
提交
a3f3172c
P
Paddle
项目概览
机器未来
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
a3f3172c
编写于
8月 04, 2022
作者:
K
kuizhiqing
提交者:
GitHub
8月 04, 2022
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
launch no python script (#44849)
上级
58d8ead2
变更
3
隐藏空白更改
内联
并排
Showing
3 changed file
with
10 addition
and
7 deletion
+10
-7
python/paddle/distributed/launch/context/__init__.py
python/paddle/distributed/launch/context/__init__.py
+0
-2
python/paddle/distributed/launch/controllers/controller.py
python/paddle/distributed/launch/controllers/controller.py
+5
-1
python/paddle/distributed/launch/plugins/__init__.py
python/paddle/distributed/launch/plugins/__init__.py
+5
-4
未找到文件。
python/paddle/distributed/launch/context/__init__.py
浏览文件 @
a3f3172c
...
...
@@ -57,8 +57,6 @@ class Context(object):
return
True
legacy_env_list
=
[
'DISTRIBUTED_TRAINER_ENDPOINTS'
,
'PADDLE_ELASTIC_JOB_ID'
,
'FLAGS_START_PORT'
,
]
...
...
python/paddle/distributed/launch/controllers/controller.py
浏览文件 @
a3f3172c
...
...
@@ -170,7 +170,11 @@ class Controller(ControllerBase):
raise
NotImplementedError
def
_get_entrypoint
(
self
):
entrypoint
=
[
sys
.
executable
,
"-u"
,
self
.
ctx
.
args
.
training_script
]
if
self
.
ctx
.
args
.
training_script
.
endswith
(
'.py'
):
entrypoint
=
[
sys
.
executable
,
"-u"
,
self
.
ctx
.
args
.
training_script
]
else
:
entrypoint
=
[
self
.
ctx
.
args
.
training_script
]
entrypoint
.
extend
(
self
.
ctx
.
args
.
training_script_args
)
return
entrypoint
...
...
python/paddle/distributed/launch/plugins/__init__.py
浏览文件 @
a3f3172c
...
...
@@ -32,8 +32,10 @@ def process_args(ctx):
argdev
=
ctx
.
args
.
devices
if
argdev
:
for
d
in
argdev
.
split
(
','
):
assert
d
in
ctx
.
node
.
device
.
labels
,
'Device not found {}'
.
format
(
argdev
)
if
d
not
in
ctx
.
node
.
device
.
labels
:
ctx
.
logger
.
error
(
f
'Device not found
{
d
}
from
{
argdev
}
for setting
{
ctx
.
node
.
device
.
labels
}
'
)
def
collective_compatible
(
ctx
):
...
...
@@ -44,7 +46,7 @@ def collective_compatible(ctx):
ctx
.
args
.
nnodes
=
len
(
hosts
)
ctx
.
logger
.
info
(
'args reset by env PADDLE_TRAINER_ENDPOINTS
\n
{}'
.
format
(
eps
))
'''
if
'DISTRIBUTED_TRAINER_ENDPOINTS'
in
ctx
.
envs
:
eps
=
ctx
.
envs
[
'DISTRIBUTED_TRAINER_ENDPOINTS'
].
split
(
','
)
hosts
=
set
([
h
.
split
(
':'
)[
0
]
for
h
in
eps
])
...
...
@@ -52,7 +54,6 @@ def collective_compatible(ctx):
ctx
.
args
.
nnodes
=
len
(
hosts
)
ctx
.
logger
.
info
(
'args reset by env DISTRIBUTED_TRAINER_ENDPOINTS
\n
{}'
.
format
(
eps
))
'''
def
rewrite_host_ip
(
ctx
):
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录