内部集群训练失败,请帮看日志错误原因
Created by: dylanliuli
请帮看一下任务失败的原因,train.log 上没有看到主逻辑的报错,是网络问题吗? 此前在单机和集群上都可成功,近一周遇到这个问题。 具体任务:http://nmg01-hpc-off-mon.dmop.baidu.com:8090/job/i-618928/
Mon Sep 11 14:31:16 2017[1,37]:F0911 14:31:16.057638 5678 SocketChannel.cpp:54] Check failed: len >= 0 peer=10.75.60.42: Connection timed out [110] Mon Sep 11 14:31:16 2017[1,37]:*** Check failure stack trace: *** Mon Sep 11 14:31:16 2017[1,4]:F0911 14:31:16.029341 13958 SocketChannel.cpp:54] Check failed: len >= 0 peer=10.75.60.42: Connection timed out [110] Mon Sep 11 14:31:16 2017[1,4]:*** Check failure stack trace: *** Mon Sep 11 14:31:16 2017[1,37]: @ 0x91316d google::LogMessage::Fail() Mon Sep 11 14:31:16 2017[1,37]: @ 0x916c1c google::LogMessage::SendToLog() Mon Sep 11 14:31:16 2017[1,37]: @ 0x912c93 google::LogMessage::Flush() Mon Sep 11 14:31:16 2017[1,37]: @ 0x912e99 google::LogMessage::~LogMessage() Mon Sep 11 14:31:16 2017[1,37]: @ 0x916147 google::ErrnoLogMessage::~ErrnoLogMessage()
谢谢