Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • Issue
  • #2019

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
大约 2 年 前同步成功

通知 2325
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 5月 05, 2017 by saxon_zh@saxon_zhGuest

How to specify the distributed training job resource

Created by: Yancey1989

在用户提交分布式训练任务时,集群需要确定以下几个资源:

  • trainer/pserver count: trainer/pserver 进程数量
  • trainer/pserver memory: 每个 trainer/pserver 进程的memory limit
  • trainer CPU/GPU count: 每个trainer 进程使用 CPU/GPU count
  • pserver CPU count: 每个pserver使用的CPU count
  1. 分别指定所有的资源使用情况:
    • 好处:直接
    • 坏处:用户需要知道集群中物理硬件的情况,例如一台机器多少块GPU卡,例如每台机器只有4块GPU卡,那么应该指定trainer_gpu_num=4, trainer_count=2而不是trainer_gpu_num=8, trainer_count=1
  2. 只指定一共需要的CPU/GPU count 和 memory limit,根据集群物理配置决定pserver/trainer count以及按比例分配pserver/trainer memoery, pserver CPU limit和trainer CPU/GPU limit
    • 好处:用户可以无感知集群的物理配置情况,根据集群当前情况动态调整pserver/trainer count
    • 坏处:灵活性略差,pserver CPU limit和trainer CPU limit根据不同的模型可能需要不同的分配比例,没有办法达到最优。
指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/Paddle#2019
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7