Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PALM
提交
3b537298
P
PALM
项目概览
PaddlePaddle
/
PALM
通知
4
Star
3
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
10
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PALM
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
10
Issue
10
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
3b537298
编写于
11月 03, 2019
作者:
X
Xiaoyao Xi
提交者:
GitHub
11月 03, 2019
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update README.md
上级
64c31b69
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
8 addition
and
1 deletion
+8
-1
README.md
README.md
+8
-1
未找到文件。
README.md
浏览文件 @
3b537298
...
...
@@ -385,10 +385,17 @@ mix_ratio: 1.0, 0.5, 0.5
### 模型保存与预测机制
`Controller`
会在训练过程
`Controller`
可以在训练过程中保存两类模型,一类称为检查点模型(checkpoint),一类为预测模型(inference model)。
检查点模型会描述当前训练时刻的网络全局状态,包括backbone、所有任务以及优化器的全局参数,局部参数,长期变量等,即完整的多任务学习计算图。检查点模型用于训练意外终止时的断点恢复,或分阶段的对相同的模型进行连续训练。对于检查点模型,
`Controller`
默认不进行保存,但是用户可以通过在全局配置文件中添加
`save_every_n_steps`
来控制检查点模型的保存频率,例如设置为5000,则表示每5000个全局训练steps就会保存一次检查点模型。检查点模型放置在全局配置文件中设置的
`save_path`
指定的路径下。
预测模型则描述的是某个任务的完整预测模型,该模型内不会包含其他任务的参数,也不会保存优化器、dropout层等推理阶段不需要的节点。在保存预测模型时,
`Controller`
会同时保存预测相关的必要配置,如预测模型的输入输出列表,在进行预测时,可以调用实例化后的
`Controller`
的预测接口
`pred`
直接对相关任务进行预测。关于预测的用法示例可以参加DEMO2。
### 分布式训练与推理
框架将单机单卡训练与单机多卡训练进行了无缝集成。当环境内有多张可用的GPU显卡时,框架会自动将模型复制到多张卡上,并且对于每个step,每张卡都会计算
`batch_size`
个训练样本,框架会自动对多卡的梯度进行合并。例如,环境中存在8张显卡,且
`batch_size`
设置为32时,这时每个step的实际batch size为32
\*
8=256。
当用户在多卡环境下希望仅用一张卡进行训练时,可以通过改变环境变量
*[CUDA_VISIBLE_DEVICES](https://devblogs.nvidia.com/cuda-pro-tip-control-gpu-visibility-cuda_visible_devices/)*
来进行控制。
## 内置数据集载入与处理工具(reader)
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录