Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
机器未来
Paddle
提交
94e2dcb1
P
Paddle
项目概览
机器未来
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
94e2dcb1
编写于
5月 11, 2017
作者:
L
liaogang
浏览文件
操作
浏览文件
下载
差异文件
Merge branch 'master' of
https://github.com/PaddlePaddle/Paddle
into develop
上级
affd9d26
2c98becb
变更
9
隐藏空白更改
内联
并排
Showing
9 changed file
with
285 addition
and
239 deletion
+285
-239
RELEASE.cn.md
RELEASE.cn.md
+80
-0
doc/api/v1/data_provider/pydataprovider2_en.rst
doc/api/v1/data_provider/pydataprovider2_en.rst
+2
-2
doc/getstarted/concepts/src/train.py
doc/getstarted/concepts/src/train.py
+52
-0
doc/getstarted/concepts/use_concepts_cn.rst
doc/getstarted/concepts/use_concepts_cn.rst
+150
-0
doc/getstarted/index_cn.rst
doc/getstarted/index_cn.rst
+1
-0
doc/howto/index_cn.rst
doc/howto/index_cn.rst
+0
-1
doc/howto/usage/concepts/src/pserver_topology.dot
doc/howto/usage/concepts/src/pserver_topology.dot
+0
-68
doc/howto/usage/concepts/src/trainer_config.py
doc/howto/usage/concepts/src/trainer_config.py
+0
-29
doc/howto/usage/concepts/use_concepts_cn.rst
doc/howto/usage/concepts/use_concepts_cn.rst
+0
-139
未找到文件。
RELEASE.cn.md
0 → 100755
浏览文件 @
94e2dcb1
# v0.10.0版本
我们非常高兴发布了PaddlePaddle V0.10.0版,并开发了新的
[
Python API
](
http://research.baidu.com/paddlepaddles-new-api-simplifies-deep-learning-programs/
)
。
-
旧的Python API由于难以学习和使用已经过时了。使用旧版本的API至少需要两份python文件,分别是定义数据生成器和定义网络拓扑结构的文件。用户通过运行
`paddle_trainer`
的C++程序来启动PaddlePaddle任务,该程序调用Python解释器来运行定义网络拓扑结构的文件,然后通过迭代加载数据生成器提供的小批量数据启动训练循环。这与Python的现代编辑方式不符,比如Jupyter Notebook。
-
新版的API被称为
*V2 API*
,允许我们在单个.py文件中,通过编辑更短的Python程序来定义网络结构和数据。此外,该Python程序也可以在Jupyter Notebook中运行,因为PaddlePaddle可以作为共享库来被Python程序加载和使用。
基于新的API,我们提供了一个在线的学习文档
[
Deep Learning 101
](
http://book.paddlepaddle.org/index.en.html
)
及其
[
中文版本
](
http://book.paddlepaddle.org/
)
。
我们还致力于迭代更新新版API的在线文档,并将新版API引入分布式集群(包括MPI和Kubernetes)训练中。我们将在下一个版本中发布更多的内容。
## 新特点
*
发布新版
[
Python API
](
http://research.baidu.com/paddlepaddles-new-api-simplifies-deep-learning-programs/
)
。
*
发布深度学习系列课程
[
Deep Learning 101
](
http://book.paddlepaddle.org/index.en.html
)
及其
[
中文版本
](
http://book.paddlepaddle.org/
)
。
*
支持矩形输入的CNN。
*
为seqlastin和seqfirstin提供stride pooling。
*
在
`trainer_config_helpers`
中暴露
`seq_concat_layer/seq_reshape_layer`
。
*
添加公共数据集包:CIFAR,MNIST,IMDB,WMT14,CONLL05,movielens,imikolov。
*
针对Single Shot Multibox Detection增加 Prior box layer。
*
增加光滑的L1损失。
*
在V2 API中增加 data reader 创建器和修饰器。
*
增加cmrnorm投影的CPU实现。
## 改进
*
提供
`paddle_trainer`
的Python virtualenv支持。
*
增加代码自动格式化的pre-commit hooks。
*
升级protobuf到3.x版本。
*
在Python数据生成器中提供一个检测数据类型的选项。
*
加速GPU中average层的后向反馈计算。
*
细化文档。
*
使用Travis-CI检查文档中的死链接。
*
增加解释
`sparse_vector`
的示例。
*
在layer_math.py中添加ReLU。
*
简化Quick Start示例中的数据处理流程。
*
支持CUDNN Deconv。
*
在v2 API中增加数据feeder。
*
在情感分析示例的演示中增加对标准输入流中样本的预测。
*
提供图像预处理的多进程接口。
*
增加V1 API的基准文档。
*
在
`layer_math.py`
中增加ReLU。
*
提供公共数据集的自动下载包。
*
将
`Argument::sumCost`
重新命名为
`Argument::sum`
,并暴露给python。
*
为矩阵相关的表达式评估增加一个新的
`TensorExpression`
实现。
*
增加延迟分配来优化批处理多表达式计算。
*
增加抽象的类函数及其实现:
*
`PadFunc`
和
`PadGradFunc`
。
*
`ContextProjectionForwardFunc`
和
`ContextProjectionBackwardFunc`
。
*
`CosSimBackward`
和
`CosSimBackwardFunc`
。
*
`CrossMapNormalFunc`
和
`CrossMapNormalGradFunc`
。
*
`MulFunc`
。
*
增加
`AutoCompare`
和
`FunctionCompare`
类,使得编写比较gpu和cpu版本函数的单元测试更容易。
*
生成
`libpaddle_test_main.a`
并删除测试文件内的主函数。
*
支持PyDataProvider2中numpy的稠密向量。
*
清理代码库,删除一些复制粘贴的代码片段:
*
增加
`SparseRowMatrix`
的抽样类
`RowBuffer`
。
*
清理
`GradientMachine`
的接口。
*
在layer中增加
`override`
关键字。
*
简化
`Evaluator::create`
,使用
`ClassRegister`
来创建
`Evaluator`
。
*
下载演示的数据集时检查MD5校验。
*
添加
`paddle::Error`
,用于替代Paddle中的
`LOG(FATAL)`
。
## 错误修复
*
检查
`recurrent_group`
的layer输入类型。
*
不要用.cu源文件运行
`clang-format`
。
*
修复
`LogActivation`
的使用错误。
*
修复运行
`test_layerHelpers`
多次的错误。
*
修复seq2seq示例超出消息大小限制的错误。
*
修复在GPU模式下dataprovider转换的错误。
*
修复
`GatedRecurrentLayer`
中的错误。
*
修复在测试多个模型时
`BatchNorm`
的错误。
*
修复paramRelu在单元测试时崩溃的错误。
*
修复
`CpuSparseMatrix`
编译时相关的警告。
*
修复
`MultiGradientMachine`
在
`trainer_count > batch_size`
时的错误。
*
修复
`PyDataProvider2`
阻止异步加载数据的错误。
doc/api/v1/data_provider/pydataprovider2_en.rst
浏览文件 @
94e2dcb1
...
...
@@ -178,7 +178,7 @@ input_types
+++++++++++
PaddlePaddle has four data types, and three sequence types.
The four data types are:
The four data types are:
* :code:`dense_vector`: dense float vector.
* :code:`sparse_binary_vector`: sparse binary vector, most of the value is 0, and
...
...
@@ -231,7 +231,7 @@ Its parameters lists as follows:
* :code:`is_train` is a bool parameter that indicates the DataProvider is used in
training or testing.
* :code:`file_list` is the list of all files.
* User-defined parameters args can be set in training configuration.
Note, PaddlePaddle reserves the right to add pre-defined parameter, so please
...
...
doc/getstarted/concepts/src/train.py
0 → 100644
浏览文件 @
94e2dcb1
import
paddle.v2
as
paddle
import
numpy
as
np
# init paddle
paddle
.
init
(
use_gpu
=
False
)
# network config
x
=
paddle
.
layer
.
data
(
name
=
'x'
,
type
=
paddle
.
data_type
.
dense_vector
(
2
))
y_predict
=
paddle
.
layer
.
fc
(
input
=
x
,
size
=
1
,
act
=
paddle
.
activation
.
Linear
())
y
=
paddle
.
layer
.
data
(
name
=
'y'
,
type
=
paddle
.
data_type
.
dense_vector
(
1
))
cost
=
paddle
.
layer
.
mse_cost
(
input
=
y_predict
,
label
=
y
)
# create parameters
parameters
=
paddle
.
parameters
.
create
(
cost
)
# create optimizer
optimizer
=
paddle
.
optimizer
.
Momentum
(
momentum
=
0
)
# create trainer
trainer
=
paddle
.
trainer
.
SGD
(
cost
=
cost
,
parameters
=
parameters
,
update_equation
=
optimizer
)
# event_handler to print training info
def
event_handler
(
event
):
if
isinstance
(
event
,
paddle
.
event
.
EndIteration
):
if
event
.
batch_id
%
1
==
0
:
print
"Pass %d, Batch %d, Cost %f"
%
(
event
.
pass_id
,
event
.
batch_id
,
event
.
cost
)
# define training dataset reader
def
train_reader
():
train_x
=
np
.
array
([[
1
,
1
],
[
1
,
2
],
[
3
,
4
],
[
5
,
2
]])
train_y
=
np
.
array
([
-
2
,
-
3
,
-
7
,
-
7
])
def
reader
():
for
i
in
xrange
(
train_y
.
shape
[
0
]):
yield
train_x
[
i
],
train_y
[
i
]
return
reader
# define feeding map
feeding
=
{
'x'
:
0
,
'y'
:
1
}
# training
trainer
.
train
(
reader
=
paddle
.
batch
(
train_reader
(),
batch_size
=
1
),
feeding
=
feeding
,
event_handler
=
event_handler
,
num_passes
=
100
)
doc/getstarted/concepts/use_concepts_cn.rst
0 → 100644
浏览文件 @
94e2dcb1
############
基本使用概念
############
PaddlePaddle是源于百度的一个深度学习平台。PaddlePaddle为深度学习研究人员提供了丰富的API,可以轻松地完成神经网络配置,模型训练等任务。
这里将介绍PaddlePaddle的基本使用概念,并且展示了如何利用PaddlePaddle来解决一个经典的线性回归问题。
在使用该文档之前,请参考 `安装文档 <../build_and_install/index_cn.html>`_ 完成PaddlePaddle的安装。
配置网络
============
加载PaddlePaddle
----------------------
在进行网络配置之前,首先需要加载相应的Python库,并进行初始化操作。
.. code-block:: bash
import paddle.v2 as paddle
import numpy as np
paddle.init(use_gpu=False)
搭建神经网络
-----------------------
搭建神经网络就像使用积木搭建宝塔一样。在PaddlePaddle中,layer是我们的积木,而神经网络是我们要搭建的宝塔。我们使用不同的layer进行组合,来搭建神经网络。
宝塔的底端需要坚实的基座来支撑,同样,神经网络也需要一些特定的layer作为输入接口,来完成网络的训练。
例如,我们可以定义如下layer来描述神经网络的输入:
.. code-block:: bash
x = paddle.layer.data(name='x', type=paddle.data_type.dense_vector(2))
y = paddle.layer.data(name='y', type=paddle.data_type.dense_vector(1))
其中x表示输入数据是一个维度为2的稠密向量,y表示输入数据是一个维度为1的稠密向量。
PaddlePaddle支持不同类型的输入数据,主要包括四种类型,和三种序列模式。
四种数据类型:
* dense_vector:稠密的浮点数向量。
* sparse_binary_vector:稀疏的01向量,即大部分值为0,但有值的地方必须为1。
* sparse_float_vector:稀疏的向量,即大部分值为0,但有值的部分可以是任何浮点数。
* integer:整数标签。
三种序列模式:
* SequenceType.NO_SEQUENCE:不是一条序列
* SequenceType.SEQUENCE:是一条时间序列
* SequenceType.SUB_SEQUENCE: 是一条时间序列,且序列的每一个元素还是一个时间序列。
不同的数据类型和序列模式返回的格式不同,列表如下:
+----------------------+---------------------+-----------------------------------+------------------------------------------------+
| | NO_SEQUENCE | SEQUENCE | SUB_SEQUENCE |
+======================+=====================+===================================+================================================+
| dense_vector | [f, f, ...] | [[f, ...], [f, ...], ...] | [[[f, ...], ...], [[f, ...], ...],...] |
+----------------------+---------------------+-----------------------------------+------------------------------------------------+
| sparse_binary_vector | [i, i, ...] | [[i, ...], [i, ...], ...] | [[[i, ...], ...], [[i, ...], ...],...] |
+----------------------+---------------------+-----------------------------------+------------------------------------------------+
| sparse_float_vector | [(i,f), (i,f), ...] | [[(i,f), ...], [(i,f), ...], ...] | [[[(i,f), ...], ...], [[(i,f), ...], ...],...] |
+----------------------+---------------------+-----------------------------------+------------------------------------------------+
| integer_value | i | [i, i, ...] | [[i, ...], [i, ...], ...] |
+----------------------+---------------------+-----------------------------------+------------------------------------------------+
其中,f代表一个浮点数,i代表一个整数。
注意:对sparse_binary_vector和sparse_float_vector,PaddlePaddle存的是有值位置的索引。例如,
- 对一个5维非序列的稀疏01向量 ``[0, 1, 1, 0, 0]`` ,类型是sparse_binary_vector,返回的是 ``[1, 2]`` 。
- 对一个5维非序列的稀疏浮点向量 ``[0, 0.5, 0.7, 0, 0]`` ,类型是sparse_float_vector,返回的是 ``[(1, 0.5), (2, 0.7)]`` 。
在定义输入layer之后,我们可以使用其他layer进行组合。在组合时,需要指定layer的输入来源。
例如,我们可以定义如下的layer组合:
.. code-block:: bash
y_predict = paddle.layer.fc(input=x, size=1, act=paddle.activation.Linear())
cost = paddle.layer.mse_cost(input=y_predict, label=y)
其中,x与y为之前描述的输入层;而y_predict是接收x作为输入,接上一个全连接层;cost接收y_predict与y作为输入,接上均方误差层。
最后一层cost中记录了神经网络的所有拓扑结构,通过组合不同的layer,我们即可完成神经网络的搭建。
训练模型
============
在完成神经网络的搭建之后,我们首先需要根据神经网络结构来创建所需要优化的parameters,并创建optimizer。
之后,我们可以创建trainer来对网络进行训练。
.. code-block:: bash
parameters = paddle.parameters.create(cost)
optimizer = paddle.optimizer.Momentum(momentum=0)
trainer = paddle.trainer.SGD(cost=cost,
parameters=parameters,
update_equation=optimizer)
其中,trainer接收三个参数,包括神经网络拓扑结构、神经网络参数以及迭代方程。
在搭建神经网络的过程中,我们仅仅对神经网络的输入进行了描述。而trainer需要读取训练数据进行训练,PaddlePaddle中通过reader来加载数据。
.. code-block:: bash
# define training dataset reader
def train_reader():
train_x = np.array([[1, 1], [1, 2], [3, 4], [5, 2]])
train_y = np.array([-2, -3, -7, -7])
def reader():
for i in xrange(train_y.shape[0]):
yield train_x[i], train_y[i]
return reader
最终我们可以调用trainer的train方法启动训练:
.. code-block:: bash
# define feeding map
feeding = {'x': 0, 'y': 1}
# event_handler to print training info
def event_handler(event):
if isinstance(event, paddle.event.EndIteration):
if event.batch_id % 1 == 0:
print "Pass %d, Batch %d, Cost %f" % (
event.pass_id, event.batch_id, event.cost)
# training
trainer.train(
reader=paddle.batch(train_reader(), batch_size=1),
feeding=feeding,
event_handler=event_handler,
num_passes=100)
关于PaddlePaddle的更多使用方法请参考 `进阶指南 <../../howto/index_cn.html>`_。
线性回归完整示例
==============
下面给出在三维空间中使用线性回归拟合一条直线的例子:
.. literalinclude:: src/train.py
:linenos:
有关线性回归的实际应用,可以参考PaddlePaddle book的 `第一章节 <http://book.paddlepaddle.org/index.html>`_。
\ No newline at end of file
doc/getstarted/index_cn.rst
浏览文件 @
94e2dcb1
...
...
@@ -5,5 +5,6 @@
:maxdepth: 1
build_and_install/index_cn.rst
concepts/use_concepts_cn.rst
- `深度学习入门课程 <http://book.paddlepaddle.org/>`_
doc/howto/index_cn.rst
浏览文件 @
94e2dcb1
...
...
@@ -8,7 +8,6 @@
:maxdepth: 1
usage/cmd_parameter/index_cn.rst
usage/concepts/use_concepts_cn.rst
usage/cluster/cluster_train_cn.md
usage/k8s/k8s_basis_cn.md
usage/k8s/k8s_cn.md
...
...
doc/howto/usage/concepts/src/pserver_topology.dot
已删除
100644 → 0
浏览文件 @
affd9d26
graph
pp_topology
{
rankdir
=
BT
;
subgraph
cluster_node0
{
style
=
filled
;
color
=
lightgrey
;
node
[
style
=
filled
,
color
=
white
,
shape
=
box
]
;
label
=
"机器0"
pserver0
[
label
=
"Parameter \n Server 0"
]
trainer0
[
label
=
"Trainer 0"
]
}
subgraph
cluster_node1
{
style
=
filled
;
color
=
lightgrey
;
node
[
style
=
filled
,
color
=
white
,
shape
=
box
]
;
label
=
"机器1"
pserver1
[
label
=
"Parameter \n Server 1"
]
trainer1
[
label
=
"Trainer 1"
]
}
subgraph
cluster_node2
{
style
=
filled
;
color
=
lightgrey
;
node
[
style
=
filled
,
color
=
white
,
shape
=
box
]
;
label
=
"机器2"
pserver2
[
label
=
"Parameter \n Server 2"
]
trainer2
[
label
=
"Trainer 2"
]
}
subgraph
cluster_node3
{
style
=
filled
;
color
=
lightgrey
;
node
[
style
=
filled
,
color
=
white
,
shape
=
box
]
;
label
=
"机器3"
pserver3
[
label
=
"Parameter \n Server 3"
]
trainer3
[
label
=
"Trainer 3"
]
}
data
[
label
=
"数据"
,
shape
=
hexagon
]
trainer0
--
pserver0
trainer0
--
pserver1
trainer0
--
pserver2
trainer0
--
pserver3
trainer1
--
pserver0
trainer1
--
pserver1
trainer1
--
pserver2
trainer1
--
pserver3
trainer2
--
pserver0
trainer2
--
pserver1
trainer2
--
pserver2
trainer2
--
pserver3
trainer3
--
pserver0
trainer3
--
pserver1
trainer3
--
pserver2
trainer3
--
pserver3
data
--
trainer0
data
--
trainer1
data
--
trainer2
data
--
trainer3
}
doc/howto/usage/concepts/src/trainer_config.py
已删除
100644 → 0
浏览文件 @
affd9d26
from
paddle.trainer_config_helpers
import
*
define_py_data_sources2
(
train_list
=
'train.list'
,
test_list
=
'test.list'
,
module
=
'provider'
,
obj
=
'process'
)
settings
(
batch_size
=
128
,
learning_rate
=
1e-3
,
learning_method
=
AdamOptimizer
(),
regularization
=
L2Regularization
(
0.5
))
img
=
data_layer
(
name
=
'pixel'
,
size
=
28
*
28
)
hidden1
=
simple_img_conv_pool
(
input
=
img
,
filter_size
=
3
,
num_filters
=
32
,
pool_size
=
3
,
num_channel
=
1
)
hidden2
=
fc_layer
(
input
=
hidden1
,
size
=
200
,
act
=
TanhActivation
(),
layer_attr
=
ExtraAttr
(
drop_rate
=
0.5
))
predict
=
fc_layer
(
input
=
hidden2
,
size
=
10
,
act
=
SoftmaxActivation
())
outputs
(
classification_cost
(
input
=
predict
,
label
=
data_layer
(
name
=
'label'
,
size
=
10
)))
doc/howto/usage/concepts/use_concepts_cn.rst
已删除
100644 → 0
浏览文件 @
affd9d26
############
基本使用概念
############
PaddlePaddle是一个深度学习框架,支持单机模式和多机模式。
单机模式用命令 ``paddle train`` 可以启动一个trainer进程,单机训练通常只包括一个trainer进程。如果数据规模比较大,希望加速训练,可以启动分布式作业。一个分布式作业里包括若干trainer进程和若干Parameter Server(或称pserver)进程。用命令 ``paddle pserver`` 可以启动 pserver 进程,pserver进程用于协调多个trainer进程之间的通信。
本文首先介绍trainer进程中的一些使用概念,然后介绍pserver进程中概念。
.. contents::
系统框图
========
下图描述了用户使用框图,PaddlePaddle的trainer进程里内嵌了Python解释器,trainer进程可以利用这个解释器执行Python脚本,Python脚本里定义了模型配置、训练算法、以及数据读取函数。其中,数据读取程序往往定义在一个单独Python脚本文件里,被称为数据提供器(DataProvider),通常是一个Python函数。模型配置、训练算法通常定义在另一单独Python文件中, 称为训练配置文件。下面将分别介绍这两部分。
.. graphviz::
digraph pp_process {
rankdir=LR;
config_file [label="用户神经网络配置"];
subgraph cluster_pp {
style=filled;
color=lightgrey;
node [style=filled, color=white, shape=box];
label = "PaddlePaddle C++";
py [label="Python解释器"];
}
data_provider [label="用户数据解析"];
config_file -> py;
py -> data_provider [dir="back"];
}
数据提供器
==========
DataProvider是PaddlePaddle系统的数据提供器,将用户的原始数据转换成系统可以识别的数据类型。每当系统需要新的数据训练时, trainer进程会调用DataProvider函数返回数据。当所有数据读取完一轮后,DataProvider返回空数据,通知系统一轮数据读取结束,并且系统每一轮训练开始时会重置DataProvider。需要注意的是,DataProvider是被系统调用,而不是新数据驱动系统,一些随机化噪声添加都应该在DataProvider中完成。
在不同的应用里,训练数据的格式往往各不相同。因此,为了用户能够灵活的处理数据,我们提供了Python处理数据的接口,称为 ``PyDataProvider`` 。在 ``PyDataProvider`` 中,系统C++模块接管了shuffle、处理batch、GPU和CPU通信、双缓冲、异步读取等问题,一些情况下(如:``min_pool_size=0``)需要Python接口里处理shuffle,可以参考 :ref:`api_pydataprovider2` 继续深入了解。
训练配置文件
============
训练配置文件主要包括数据源、优化算法、网络结构配置三部分。 其中数据源配置与DataProvider的关系是:DataProvider里定义数据读取函数,训练配置文件的数据源配置中指定DataProvider文件名字、生成数据函数接口,请不要混淆。
一个简单的训练配置文件为:
.. literalinclude:: src/trainer_config.py
:linenos:
文件开头 ``from paddle.trainer_config_helpers import *`` ,是因为PaddlePaddle配置文件与C++模块通信的最基础协议是protobuf,为了避免用户直接写复杂的protobuf string,我们为用户定以Python接口来配置网络,该Python代码可以生成protobuf包,这就是 :ref:`api_trainer_config` 的作用。因此,在文件的开始,需要import这些函数。 这个包里面包含了模型配置需要的各个模块。
下面分别介绍数据源配置、优化算法配置、网络结构配置这三部分该概念。
数据源配置
----------
使用 ``PyDataProvider2`` 的函数 ``define_py_data_sources2`` 配置数据源。``define_py_data_sources2`` 里通过train_list和test_list指定是训练文件列表和测试文件列表。 如果传入字符串的话,是指一个数据列表文件。这个数据列表文件中包含的是每一个训练或者测试文件的路径。如果传入一个list的话,则会默认生成一个list文件,再传入给train.list或者test.list。
``module`` 和 ``obj`` 指定了DataProvider的文件名和返回数据的函数名。更详细的使用,请参考 :ref:`api_pydataprovider2` 。
优化算法配置
------------
通过 :ref:`api_trainer_config_helpers_optimizers_settings` 接口设置神经网络所使用的训练参数和 :ref:`api_trainer_config_helpers_optimizers` ,包括学习率、batch_size、优化算法、正则方法等,具体的使用方法请参考 :ref:`api_trainer_config_helpers_optimizers_settings` 文档。
网络结构配置
------------
神经网络配置主要包括网络连接、激活函数、损失函数、评估器。
- 网络连接: 主要由Layer组成,每个Layer返回的都是一个 ``LayerOutput`` 对象,Layer里面可以定义参数属性、激活类型等。
为了更灵活的配置,PaddlePaddle提供了基于 Projection 或者 Operator 的配置,这两个需要与 ``mixed_layer`` 配合使用。这里简单介绍Layer、Projection、Operator的概念:
- Layer: 神经网络的某一层,可以有可学习的参数,一般是封装了许多复杂操作的集合。
- Projection:需要与 ``mixed_layer`` 配合使用,含可学习参数。
- Operator: 需要与 ``mixed_layer`` 配合使用,不含可学习参数,输入全是其他Layer的输出。
这个配置文件网络由 ``data_layer`` 、 ``simple_img_conv_pool`` 、 ``fc_layer`` 组成。
- :ref:`api_trainer_config_helpers_layers_data_layer` : 通常每个配置文件都会包括 ``data_layer`` ,定义输入数据大小。
- :ref:`api_trainer_config_helpers_network_simple_img_conv_pool` :是一个组合层,包括了图像的卷积 (convolution)和池化(pooling)。
- :ref:`api_trainer_config_helpers_layers_fc_layer` :全连接层,激活函数为Softmax,这里也可叫分类层。
- 损失函数和评估器:损失函数即为网络的优化目标,评估器可以评价模型结果。
PaddlePaddle包括很多损失函数和评估起,详细可以参考 :ref:`api_trainer_config_helpers_layers_cost_layers` 和 :ref:`api_trainer_config_helpers_evaluators` 。这里 ``classification_cost`` 默认使用多类交叉熵损失函数和分类错误率统计评估器。
- ``outputs``: 标记网络输出的函数为 ``outputs`` 。
训练阶段,网络的输出为神经网络的优化目标;预测阶段,网络的输出也可通过 ``outputs`` 标记。
这里对 ``mixed_layer`` 稍做详细说明, 该Layer将多个输入(Projection 或 Operator)累加求和,具体计算是通过内部的 Projection 和 Operator 完成,然后加 Bias 和 activation 操作,
例如,和 ``fc_layer`` 同样功能的 ``mixed_layer`` 是:
.. code-block:: python
data = data_layer(name='data', size=200)
with mixed_layer(size=200) as out:
out += full_matrix_projection(input=data)
PaddlePaddle 可以使用 ``mixed layer`` 配置出非常复杂的网络,甚至可以直接配置一个完整的LSTM。用户可以参考 :ref:`api_trainer_config_helpers_layers_mixed_layer` 的相关文档进行配置。
分布式训练
==========
PaddlePaddle多机采用经典的 Parameter Server 架构对多个节点的 trainer 进行同步。多机训练的经典拓扑结构如下\:
.. graphviz:: src/pserver_topology.dot
图中每个灰色方块是一台机器,在每个机器中,先使用命令 ``paddle pserver`` 启动一个pserver进程,并指定端口号,可能的参数是\:
.. code-block:: bash
paddle pserver --port=5000 --num_gradient_servers=4 --tcp_rdma='tcp' --nics='eth0'
* ``--port=5000`` : 指定 pserver 进程端口是 5000 。
* ``--gradient_servers=4`` : 有四个训练进程(PaddlePaddle 将 trainer 也称作 GradientServer ,因为其为负责提供Gradient) 。
* ``--tcp_rdma='tcp' --nics=`eth0```: 指定以太网类型为TCP网络,指定网络接口名字为eth0。
启动之后 pserver 进程之后,需要启动 trainer 训练进程,在各个机器上运行如下命令\:
.. code-block:: bash
paddle train --port=5000 --pservers=192.168.100.101,192.168.100.102,192.168.100.103,192.168.100.104 --config=...
对于简单的多机协同训练使用上述方式即可。另外,pserver/train 通常在高级情况下,还需要设置下面两个参数\:
* --ports_num\: 一个 pserver 进程共绑定多少个端口用来做稠密更新,默认是1。
* --ports_num_for_sparse\: 一个pserver进程共绑定多少端口用来做稀疏更新,默认是0。
使用手工指定端口数量,是因为Paddle的网络通信中,使用了 int32 作为消息长度,比较容易在大模型下溢出。所以,在 pserver 进程中可以启动多个子线程去接受 trainer 的数据,这样单个子线程的长度就不会溢出了。但是这个值不可以调的过大,因为增加这个值,对性能尤其是内存占用有一定的开销,另外稀疏更新的端口如果太大的话,很容易导致某一个参数服务器没有分配到任何参数。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录