Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • Issue
  • #596

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
大约 2 年 前同步成功

通知 2325
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 11月 24, 2016 by saxon_zh@saxon_zhGuest

train.log报connection错误

Created by: sarawon

跑的是cluster模式,执行start trainer的task时候就卡住了: [root@192.168.30.131:8023] Executing task 'start_trainer' [root@192.168.30.131:8023] run: cd /root/paddle/demo/recommendation; GLOG_logtostderr=0 GLOG_log_dir="./log" nohup paddle train --num_gradient_servers=2 --nics=eth0 --port=7164 --ports_num=2 --comment=paddle_process_by_paddle --pservers=192.168.30.131,192.168.30.179 --ports_num_for_sparse=2 --config=./trainer_config.py --trainer_count=4 --use_gpu=0 --num_passes=10 --save_dir=./output --log_period=50 --dot_period=10 --saving_period=1 --local=0 --trainer_id=0 > ./log/train.log 2>&1 < /dev/null & [root@192.168.30.131:8023] out: stdin: is not a tty [root@192.168.30.131:8023] out:

[root@192.168.30.179:8023] Executing task 'start_trainer' [root@192.168.30.179:8023] run: cd /root/paddle/demo/recommendation; GLOG_logtostderr=0 GLOG_log_dir="./log" nohup paddle train --num_gradient_servers=2 --nics=eth0 --port=7164 --ports_num=2 --comment=paddle_process_by_paddle --pservers=192.168.30.131,192.168.30.179 --ports_num_for_sparse=2 --config=./trainer_config.py --trainer_count=4 --use_gpu=0 --num_passes=10 --save_dir=./output --log_period=50 --dot_period=10 --saving_period=1 --local=0 --trainer_id=1 > ./log/train.log 2>&1 < /dev/null & [root@192.168.30.179:8023] out: stdin: is not a tty [root@192.168.30.179:8023] out:

train.log的内容: [INFO 2016-11-24 07:17:26,152 networks.py:1466] The input order is [movie_id, title, genres, user_id, gender, age, occupation, rating] [INFO 2016-11-24 07:17:26,152 networks.py:1472] The output order is [regression_cost_0] F1124 07:17:26.942348 352 LightNetwork.cpp:379] Check failed: connect(sockfd, (sockaddr *)&serv_addr, sizeof(serv_addr)) >= 0 ERROR connecting to 192.168.30.131: Connection refused [111]

* Check failure stack trace: *

@ 0x7f1604a93daa (unknown) @ 0x7f1604a93ce4 (unknown) @ 0x7f1604a936e6 (unknown) @ 0x7f1604a934fb (unknown) @ 0x7f1604a94477 (unknown) @ 0x69552e paddle::SocketClient::TcpClient() @ 0x696051 paddle::SocketClient::SocketClient() @ 0x7eaa76 std::vector<>::emplace_back<>() @ 0x7e1be3 paddle::ParameterClient2::init() @ 0x68e2dd paddle::RemoteParameterUpdater::init() @ 0x678de2 paddle::Trainer::init() @ 0x5132a9 main @ 0x7f1603c9ff45 (unknown) @ 0x51f2a5 (unknown) @ (nil) (unknown) /usr/local/bin/paddle: line 109: 352 Aborted (core dumped) ${DEBUGGER} $MYDIR/../opt/paddle/bin/paddle_trainer ${@:2}

server.log的内容: F1124 07:19:03.638399 418 SocketChannel.cpp:180] Check failed: len == sizeof(header) : Success [0]

* Check failure stack trace: *

@ 0x7f9fb4dbfdaa (unknown) @ 0x7f9fb4dbfce4 (unknown) @ 0x7f9fb4dbf6e6 (unknown) @ 0x7f9fb4dbf4fb (unknown) @ 0x7f9fb4dc0477 (unknown) @ 0x667eb8 paddle::SocketChannel::readMessage() @ 0x6657dc paddle::SocketWorker::run() @ 0x7f9fb493ca60 (unknown) @ 0x7f9fb5bd2184 start_thread @ 0x7f9fb40a437d (unknown) @ (nil) (unknown) /usr/local/bin/paddle: line 109: 321 Aborted (core dumped) ${DEBUGGER} $MYDIR/../opt/paddle/bin/paddle_pserver_main ${@:2}
指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/Paddle#596
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7