diff --git a/doc/design/cluster_train/checkpointing.md b/doc/design/cluster_train/checkpointing.md index a4d09004bde8ab1e31774600ed43ead834a23d67..c87ef2c7d2636208866d05456d5d44316d0bb200 100644 --- a/doc/design/cluster_train/checkpointing.md +++ b/doc/design/cluster_train/checkpointing.md @@ -8,7 +8,6 @@ 说明: * parameter server在集群中启动后,自动挂载分布式存储目录,并把快照保存到这个目录下。 -* ***注:parameter server在保存检查点时,利用了Linux内核的“写时复制”技术,在fork的进程中保存检查点,原进程可以继续接收trainer的梯度更新请求,而不影响检查点数据的保存。*** * ***注:每个parameter server的检查点各自独立保存,暂时不考虑多个parameter server同步的保存一个特定时间点的全局检查点,因为这样做也没法保证消除随机性。*** 检查点保存程序流程: diff --git a/doc/design/cluster_train/data_dispatch.md b/doc/design/cluster_train/data_dispatch.md index b013b14e4764108524e58e76710ce63c53e81ee3..9f2fc404a09627c6029208a0adf363070e520996 100644 --- a/doc/design/cluster_train/data_dispatch.md +++ b/doc/design/cluster_train/data_dispatch.md @@ -21,10 +21,10 @@ ### 上传训练文件 -使用下面命令,可以把本地的训练数据上传到存储集群中 +使用下面命令,可以把本地的训练数据上传到存储集群中,并指定上传数据的`dataset-name`: ``` -paddle upload train_data.list +paddle upload train_data.list "dataset-name" ``` 其中`.list`文件描述了训练数据的文件和对应的label,对于图像类数据,`.list文件`样例如下,每一行包含了图片文件的路径和其label(用tab分隔开):