Distributed PaddlePaddle Blog
Created by: helinwang
- 第一篇:可容错深度学习任务 (wuyi, longfei, yanxu, gongweibao, helin)
Please see: https://github.com/PaddlePaddle/blog/issues/3
- 为什么深度学习需要容错
- etcd是什么,怎么通过它来做容错
- trainer, pserver, master如何协作(gongweibao)
- 为什么引入了master,Task Queue的设计
- see: https://github.com/PaddlePaddle/blog/issues/3
- 第二篇:Go在分布式机器学习系统中的应用。(wuyi, longfei, helin) Please see: https://github.com/PaddlePaddle/blog/issues/1
- 第三篇:使用kubernetes调度可容错的深度学习任务 (yanxu, gongweibao)
Please see: https://github.com/PaddlePaddle/blog/issues/5
- 如何从非k8s迁移到k8s,代价和好处
- GPU
- 第四篇:训练数据的存储和传输优化(gongweibao, helin)
Please see: https://github.com/PaddlePaddle/blog/issues/4
- 使用recordio
- 使用分布式存储
- metadata和task队列
- 第五篇: 异步(第一版没有同步)参数更新性能分析与调优(gradient upload / download frequency, how many pservers)... (zhihong, wuyi, helin, yanxu) Please see: https://github.com/PaddlePaddle/blog/issues/2
- 第六篇:构建系统,测试系统的考虑和设计 (helin, weibao)
Please see: https://github.com/PaddlePaddle/blog/issues/6
- github上的搭建
- teamcity
- docker develop environment