提交 843d08d5 编写于 作者: L Luo Tao

fix dead links on quick_start

上级 d2e419a7
.. _api_dataprovider:
DataProvider的介绍
==================
......
.. _api_swig_py_paddle:
基于Python的预测
================
......
......@@ -110,7 +110,9 @@ PaddlePaddle支持Sparse的训练,sparse训练需要训练特征是 :code:`spa
* 使用显卡训练。设置命令行参数 :code:`use_gpu`。
* 使用多块显卡训练。设置命令行参数 :code:`use_gpu` 和 :code:`trainer_count` 。
* 多机训练(文档待补充)
* 多机训练
* 请参考 :ref:`cluster_train` 。
3. 遇到“非法指令”或者是“illegal instruction”
......
编译与安装
安装与编译
==========
安装
++++
.. _install_steps:
安装流程
++++++++
PaddlePaddle提供数个预编译的二进制来进行安装,包括Docker镜像,ubuntu的deb安装包等。我们推荐使用Docker镜像来部署环境,同时欢迎贡献更多的安装包。
......@@ -14,12 +16,12 @@ PaddlePaddle提供数个预编译的二进制来进行安装,包括Docker镜
编译
++++
编译流程
++++++++
.. warning::
编译选项主要推荐高级用户查看,普通用户请走安装流程。
编译流程主要推荐高级用户查看,普通用户请走安装流程。
.. toctree::
:maxdepth: 1
......
......@@ -8,6 +8,7 @@
:maxdepth: 1
usage/concepts/use_concepts_cn.rst
usage/cluster/cluster_train_cn.md
usage/cluster/k8s/k8s_cn.md
usage/cluster/k8s/k8s_distributed_cn.md
......
```eval_rst
.. _cluster_train:
```
# 运行分布式训练
在本文中,我们将阐释如何在集群上运行分布式 Paddle 训练作业。我们将以[推荐系统](https://github.com/baidu/Paddle/tree/develop/demo/recommendation)为例创建分布式的单进程训练。
......
......@@ -8,7 +8,7 @@
安装
====
请参考 `安装教程 <../../build_and_install/index.html>`_ 安装PaddlePaddle。
请参考 :ref:`install_steps` 安装PaddlePaddle。
使用概述
========
......@@ -60,7 +60,7 @@
Python脚本读取数据
------------------
`DataProvider <../../ui/data_provider/index.html>`_ 是PaddlePaddle负责提供数据的模块。``DataProvider`` 主要职责在于将训练数据传入内存或者显存,让模型能够得到训练更新,其包括两个函数:
`DataProvider` 是PaddlePaddle负责提供数据的模块,主要职责在于将训练数据传入内存或者显存,让模型能够得到训练更新,其包括两个函数:
* initializer:PaddlePaddle会在调用读取数据的Python脚本之前,先调用initializer函数。在下面例子里,我们在initialzier函数里初始化词表,并且在随后的读取数据过程中填充词表。
* process:PaddlePaddle调用process函数来读取数据。每次读取一条数据后,process函数会用yield语句输出这条数据,从而能够被PaddlePaddle 捕获 (harvest)。
......@@ -73,6 +73,7 @@ Python脚本读取数据
:linenos:
:emphasize-lines: 8,33
详细内容请参见 :ref:`api_dataprovider` 。
配置中的数据加载定义
--------------------
......@@ -93,7 +94,7 @@ Python脚本读取数据
- obj="process": 指定生成数据的函数
- args={"dictionary": word_dict}: 额外的参数,这里指定词典
更详细数据格式和用例请参考 `PyDataProvider2 <../../ui/data_provider/pydataprovider2.html>`_
更详细数据格式和用例请参考 :ref:`api_pydataprovider2`
模型网络结构
============
......@@ -105,7 +106,7 @@ Python脚本读取数据
:scale: 80%
我们将以最基本的逻辑回归网络作为起点,并逐渐展示更加深入的功能。更详细的网络配置连接请参考 `Layer文档 <../../../doc/layer.html>`_
我们将以最基本的逻辑回归网络作为起点,并逐渐展示更加深入的功能。更详细的网络配置连接请参考 :ref:`api_trainer_config_helpers_layers`
所有配置都能在 `源代码 <https://github.com/PaddlePaddle/Paddle>`_ 的 ``demo/quick_start`` 目录下找到。
逻辑回归模型
......@@ -306,7 +307,7 @@ Momentum, RMSProp,AdaDelta,AdaGrad,ADAM,Adamax等,这里采用Adam优
--num_passes=15 \
--use_gpu=false
这里只简单介绍了单机训练,如何进行分布式训练,可以参考教程 `分布式训练 <../../cluster/index.html>`_
这里只简单介绍了单机训练,如何进行分布式训练,请参考 :ref:`cluster_train`
预测
=====
......@@ -318,7 +319,7 @@ Momentum, RMSProp,AdaDelta,AdaGrad,ADAM,Adamax等,这里采用Adam优
:scale: 80%
之前配置文件中 ``test.list`` 指定的数据将会被测试,这里直接通过预测脚本 ``predict.sh`` 进行预测,
更详细的说明,可以参考 `Python API预测 <../../ui/predict/swig_py_paddle.html>`_ 教程
更详细的说明,请参考 :ref:`api_swig_py_paddle`
.. code-block:: bash
......@@ -373,7 +374,7 @@ Momentum, RMSProp,AdaDelta,AdaGrad,ADAM,Adamax等,这里采用Adam优
默认一个pass保存一次模型,也可以通过saving_period_by_batches设置每隔多少batch保存一次模型。
可以通过show_parameter_stats_period设置打印参数信息等。
其他参数请参考 `命令行参数文档 <../../ui/index.html#command-line-argument>`_
其他参数请参考 命令行参数文档(链接待补充)
输出日志
---------
......
MovieLens数据集评分回归模型
=========================
===========================
这里我们在MovieLens数据集描述一种 **余弦相似度回归** 任务。
该示例将展示paddle如何进行词向量嵌入,处理相似度回归,针对文本
......@@ -12,9 +12,9 @@ MovieLens数据集评分回归模型
让这个示例变得更好,希望能让我们知晓。**
数据准备
```````
`````````
下载并解压数据集
''''''''''''''
'''''''''''''''''
这里我们使用 :ref:`demo_ml_dataset` 。
要下载和解压数据集,只需要简单的运行下面的命令即可。
......@@ -34,7 +34,7 @@ MovieLens数据集评分回归模型
+--- README # 数据集描述
字段配置文件
''''''''''
'''''''''''''
**字段配置文件** 用来具体说明数据集的字段和文件格式,
例如,说明每个特征文件具体字段是 **什么** 类型。
......@@ -50,7 +50,7 @@ ml-1m的字段配置文件在目录 :code:`demo/recommendation/data/config.json`
:literal:
准备数据
```````
`````````
你需要安装python的第三方库。
**强烈推荐使用VIRTUALENV来创造一个干净的python环境。**
......@@ -68,14 +68,14 @@ ml-1m的字段配置文件在目录 :code:`demo/recommendation/data/config.json`
下面介绍预处理过程具体的步骤。
提取电影或用户的特征并生成python对象
''''''''''''''''''''''''''''''''
'''''''''''''''''''''''''''''''''''''
在movielens 1m数据集中,电影和用户有许多的特征。
评分文件的每一行仅仅提供电影或用户的编号来代表相应的电影或用户。
我们首先处理电影或用户的特征文件,然后用pickle命令将特征( **Meta** )对象存储为文件。
Meta配置文件
...........
.............
**Meta配置文件** 用来具体描述 **如何** 解析数据集中的每一个字段。
该文件可以从字段配置文件生成,或是手动编辑生成。文件的格式可以
......@@ -185,7 +185,7 @@ meta文件 :code:`meta.bin` 的结构如下:
分割训练/测试文件
'''''''''''''''
''''''''''''''''''
我们将 :code:`ml-1m/ratings.dat` 文件分割为训练和测试文件。分割文件的方法是:对于每位用户,我们将评分分成两部分。
这样的话每位用户在测试文件中将与训练文件含有同样的信息。
......@@ -208,10 +208,10 @@ meta文件 :code:`meta.bin` 的结构如下:
神经网络结构配置
``````````````
`````````````````
训练器配置文件
''''''''''''
'''''''''''''''
网络结构如下图所示:
......@@ -251,7 +251,7 @@ meta文件 :code:`meta.bin` 的结构如下:
* 声明Python数据源, :ref:`api_trainer_config_helpers_data_sources`
数据提供脚本
'''''''''''
'''''''''''''
.. literalinclude:: ../../../demo/recommendation/dataprovider.py
:language: python
......@@ -264,7 +264,7 @@ meta文件 :code:`meta.bin` 的结构如下:
* use_seq\: :code:`dataprovider.py` 中的数据是否为序列模式。
* process\: 返回数据的每一条样本给 :code:`paddle` 。
数据提供脚本的细节文档可以参考 :ref:`api_pydataprovider` 。
数据提供脚本的细节文档可以参考 :ref:`api_pydataprovider2` 。
训练
````
......@@ -316,7 +316,7 @@ meta文件 :code:`meta.bin` 的结构如下:
模型被保存在 :code:`output/` 目录中。你可以在任何时候用 :code:`Ctrl-C` 来停止训练。
模型评估和预测
````````````
```````````````
在训练了几个轮次以后,你可以对模型进行评估,得到最好轮次下的模型。运行下面命令即可:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册