Distributed PaddlePaddle Blog (#2930) · Issue · PaddlePaddle / Paddle

Distributed PaddlePaddle Blog

Created by: helinwang

第一篇：可容错深度学习任务 (wuyi, longfei, yanxu, gongweibao, helin) Please see: https://github.com/PaddlePaddle/blog/issues/3
- 为什么深度学习需要容错
- etcd是什么，怎么通过它来做容错
- trainer, pserver, master如何协作(gongweibao)
- 为什么引入了master，Task Queue的设计
- see: https://github.com/PaddlePaddle/blog/issues/3
第二篇：Go在分布式机器学习系统中的应用。(wuyi, longfei, helin) Please see: https://github.com/PaddlePaddle/blog/issues/1
第三篇：使用kubernetes调度可容错的深度学习任务 (yanxu, gongweibao) Please see: https://github.com/PaddlePaddle/blog/issues/5
- 如何从非k8s迁移到k8s，代价和好处
- GPU
第四篇：训练数据的存储和传输优化(gongweibao, helin) Please see: https://github.com/PaddlePaddle/blog/issues/4
- 使用recordio
- 使用分布式存储
- metadata和task队列
第五篇：异步（第一版没有同步）参数更新性能分析与调优（gradient upload / download frequency, how many pservers）... (zhihong, wuyi, helin, yanxu) Please see: https://github.com/PaddlePaddle/blog/issues/2
第六篇：构建系统，测试系统的考虑和设计 (helin, weibao) Please see: https://github.com/PaddlePaddle/blog/issues/6
- github上的搭建
- teamcity
- docker develop environment