Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • Issue
  • #18029

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
大约 2 年 前同步成功

通知 2325
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 6月 12, 2019 by saxon_zh@saxon_zhGuest

【1.5】fleet 在pslib模式下,运行ctr模型,大batchsize,调用fleet.stopworker()挂掉

Created by: ccmeteorljh

paddleversion : 1.5

  • 复现方法 http://wiki.baidu.com/display/PDLPDL/Fleet+with+CTR_new

batchsize=32会挂,batchsize=2则没问题;

  • 报错情况:
run default_startup_program
I0612 15:58:40.458407 201989 src/brpc/server.cpp:975] Server[paddle::ps::DownpourPsService] is serving on port=8000.
I0612 15:58:40.458457 201989 src/brpc/server.cpp:978] Check out http://yq01-jpaas-ai00-let0023.yq01.baidu.com:8000 in web browser.
I0612 15:58:40.658174 201990 baidu/paddlepaddle/pslib/src/communicate/ps_client.cc:82] Create PSClient[DownpourBrpcPsClient] success
I0612 15:58:40.663541 201990 src/brpc/server.cpp:975] Server[paddle::ps::DownpourPsClientService] is serving on port=8501.
I0612 15:58:40.663560 201990 src/brpc/server.cpp:978] Check out http://yq01-jpaas-ai00-let0023.yq01.baidu.com:8501 in web browser.
I0612 15:58:40.664471 201990 baidu/paddlepaddle/pslib/src/communicate/downpour_ps_client.cc:78] Client connect success:10.255.120.16:8501,
start load_into_memory
[yq01-jpaas-ai00-let0023.yq01.baidu.com:201984] 1 more process has sent help message help-mpi-btl-openib.txt / no device params found
[yq01-jpaas-ai00-let0023.yq01.baidu.com:201984] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages
load_into_memory done
global_shuffle
global_shuffle done
run default_main_program
I0612 15:58:49.454741 201990 baidu/paddlepaddle/pslib/src/communicate/downpour_ps_client.cc:324] wait _async_call_num:0
finished
*** Aborted at 1560326329 (unix time) try "date -d @1560326329" if you are using GNU date ***
PC: @                0x0 (unknown)
*** SIGSEGV (@0x7fd6a97faec8) received by PID 201990 (TID 0x7fd69bfff700) from PID 18446744072258301640; stack trace: ***
    @     0x7fd85f733160 (unknown)
    @     0x7fd85f72fbfa __pthread_cond_signal
--------------------------------------------------------------------------
mpirun noticed that process rank 1 with PID 201990 on node yq01-jpaas-ai00-let0023.yq01.baidu.com exited on signal 11 (Segmentation fault).
指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/Paddle#18029
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7