未验证 提交 3b537298 编写于 作者: X Xiaoyao Xi 提交者: GitHub

Update README.md

上级 64c31b69
......@@ -385,10 +385,17 @@ mix_ratio: 1.0, 0.5, 0.5
### 模型保存与预测机制
`Controller`会在训练过程
`Controller`可以在训练过程中保存两类模型,一类称为检查点模型(checkpoint),一类为预测模型(inference model)。
检查点模型会描述当前训练时刻的网络全局状态,包括backbone、所有任务以及优化器的全局参数,局部参数,长期变量等,即完整的多任务学习计算图。检查点模型用于训练意外终止时的断点恢复,或分阶段的对相同的模型进行连续训练。对于检查点模型,`Controller`默认不进行保存,但是用户可以通过在全局配置文件中添加`save_every_n_steps`来控制检查点模型的保存频率,例如设置为5000,则表示每5000个全局训练steps就会保存一次检查点模型。检查点模型放置在全局配置文件中设置的`save_path`指定的路径下。
预测模型则描述的是某个任务的完整预测模型,该模型内不会包含其他任务的参数,也不会保存优化器、dropout层等推理阶段不需要的节点。在保存预测模型时,`Controller`会同时保存预测相关的必要配置,如预测模型的输入输出列表,在进行预测时,可以调用实例化后的`Controller`的预测接口`pred`直接对相关任务进行预测。关于预测的用法示例可以参加DEMO2。
### 分布式训练与推理
框架将单机单卡训练与单机多卡训练进行了无缝集成。当环境内有多张可用的GPU显卡时,框架会自动将模型复制到多张卡上,并且对于每个step,每张卡都会计算`batch_size`个训练样本,框架会自动对多卡的梯度进行合并。例如,环境中存在8张显卡,且`batch_size`设置为32时,这时每个step的实际batch size为32\*8=256。
当用户在多卡环境下希望仅用一张卡进行训练时,可以通过改变环境变量*[CUDA_VISIBLE_DEVICES](https://devblogs.nvidia.com/cuda-pro-tip-control-gpu-visibility-cuda_visible_devices/)*来进行控制。
## 内置数据集载入与处理工具(reader)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册