Merge pull request #1685 from typhoonzero/fix1676

Update docker build and install doc

Merge pull request #1685 from typhoonzero/fix1676
Update docker build and install doc
1bca3cfd · helinwang · GitHub · 57d9b549 · b8c33646 · 1bca3cfd
2 changed file
--- a/doc/getstarted/build_and_install/docker_install_cn.rst
+++ b/doc/getstarted/build_and_install/docker_install_cn.rst
@@ -4,119 +4,132 @@ PaddlePaddle的Docker容器使用方式
 PaddlePaddle目前唯一官方支持的运行的方式是Docker容器。因为Docker能在所有主要操作系统（包括Linux，Mac OS X和Windows）上运行。 请注意，您需要更改 `Dockers设置 <https://github.com/PaddlePaddle/Paddle/issues/627>`_ 才能充分利用Mac OS X和Windows上的硬件资源。


-纯CPU和GPU的docker镜像使用说明
+PaddlePaddle发布的docker镜像使用说明
 ------------------------------

-对于每一个PaddlePaddle版本，我们都会发布两个Docker镜像：纯CPU的和GPU的。
-我们通过设置 `dockerhub.com <https://hub.docker.com/r/paddledev/paddle/>`_ 自动生成最新的docker镜像：
-`paddledev/paddle:0.10.0rc1-cpu` 和 `paddledev/paddle:0.10.0rc1-gpu`。
+对于每一个PaddlePaddle版本，我们都会发布两种Docker镜像：开发镜像、运行镜像。运行镜像包括纯CPU版本和GPU版本以及其对应的非AVX版本。
+我们会在 `dockerhub.com <https://hub.docker.com/r/paddledev/paddle/>`_ 提供最新的docker镜像，可以在"tags"标签下找到最新的Paddle镜像版本。
+1. 开发镜像：:code:`paddlepaddle/paddle:<version>-dev`

-以交互容器方式运行纯CPU的镜像：
+    这个镜像包含了Paddle相关的开发工具以及编译和运行环境。用户可以使用开发镜像代替配置本地环境，完成开发，编译，发布，
+    文档编写等工作。由于不同的Paddle的版本可能需要不同的依赖和工具，所以如果需要自行配置开发环境需要考虑版本的因素。
+    开发镜像包含了以下工具：
+    - gcc/clang
+    - nvcc
+    - Python
+    - sphinx
+    - woboq
+    - sshd
+    很多开发者会使用远程的安装有GPU的服务器工作，用户可以使用ssh登录到这台服务器上并执行 :code:`docker exec`进入开发镜像并开始工作，
+    也可以在开发镜像中启动一个SSHD服务，方便开发者直接登录到镜像中进行开发:

-.. code-block:: bash
+    以交互容器方式运行开发镜像：

-    docker run -it --rm paddledev/paddle:0.10.0rc1-cpu /bin/bash
+    .. code-block:: bash

-或者，可以以后台进程方式运行容器：
+        docker run -it --rm paddledev/paddle:<version>-dev /bin/bash

-.. code-block:: bash
+    或者，可以以后台进程方式运行容器：

-    docker run -d -p 2202:22 -p 8888:8888 paddledev/paddle:0.10.0rc1-cpu
+    .. code-block:: bash

-然后用密码 :code:`root` SSH进入容器：
+        docker run -d -p 2202:22 -p 8888:8888 paddledev/paddle:<version>-dev

-.. code-block:: bash
+    然后用密码 :code:`root` SSH进入容器：

-    ssh -p 2202 root@localhost
+    .. code-block:: bash

-SSH方式的一个优点是我们可以从多个终端进入容器。比如，一个终端运行vi，另一个终端运行Python。另一个好处是我们可以把PaddlePaddle容器运行在远程服务器上，并在笔记本上通过SSH与其连接。
+        ssh -p 2202 root@localhost

+    SSH方式的一个优点是我们可以从多个终端进入容器。比如，一个终端运行vi，另一个终端运行Python。另一个好处是我们可以把PaddlePaddle容器运行在远程服务器上，并在笔记本上通过SSH与其连接。

-以上方法在GPU镜像里也能用－只是请不要忘记按装CUDA驱动，以及告诉Docker：
+2. 运行镜像：根据CPU、GPU和非AVX区分了如下4个镜像：
+    - GPU/AVX：:code:`paddlepaddle/paddle:<version>-gpu`
+    - GPU/no-AVX：:code:`paddlepaddle/paddle:<version>-gpu-noavx`
+    - CPU/AVX：:code:`paddlepaddle/paddle:<version>`
+    - CPU/no-AVX：:code:`paddlepaddle/paddle:<version>-noavx`

-.. code-block:: bash
+    纯CPU镜像以及GPU镜像都会用到AVX指令集，但是2008年之前生产的旧电脑不支持AVX。以下指令能检查Linux电脑是否支持AVX：

-    export CUDA_SO="$(\ls /usr/lib64/libcuda* | xargs -I{} echo '-v {}:{}') $(\ls /usr/lib64/libnvidia* | xargs -I{} echo '-v {}:{}')"
-    export DEVICES=$(\ls /dev/nvidia* | xargs -I{} echo '--device {}:{}')
-    docker run ${CUDA_SO} ${DEVICES} -it paddledev/paddle:0.10.0rc1-gpu
+    .. code-block:: bash

+       if cat /proc/cpuinfo | grep -i avx; then echo Yes; else echo No; fi

-运行PaddlePaddle书籍
---------------------
+    如果输出是No，就需要选择使用no-AVX的镜像

-Jupyter Notebook是一个开源的web程序，大家可以通过它制作和分享带有代码、公式、图表、文字的交互式文档。用户可以通过网页浏览文档。
+    注意：在运行GPU版本的镜像时 安装CUDA驱动，以及告诉Docker：

-PaddlePaddle书籍是为用户和开发者制作的一个交互式的Jupyter Nodebook。
-如果您想要更深入了解deep learning，PaddlePaddle书籍一定是您最好的选择。
+    .. code-block:: bash

-当您进入容器内之后，只用运行以下命令：
+        export CUDA_SO="$(\ls /usr/lib64/libcuda* | xargs -I{} echo '-v {}:{}') $(\ls /usr/lib64/libnvidia* | xargs -I{} echo '-v {}:{}')"
+        export DEVICES=$(\ls /dev/nvidia* | xargs -I{} echo '--device {}:{}')
+        docker run ${CUDA_SO} ${DEVICES} -it paddledev/paddle:<version>-gpu

-.. code-block:: bash
-        
-    jupyter notebook
+3. 使用运行镜像发布你的AI程序
+    假设您已经完成了一个AI训练的python程序 :code:`a.py`，这个程序是您在开发机上使用开发镜像完成开发。此时您可以运行这个命令在开发机上进行测试运行：

-然后在浏览器中输入以下网址：
-    
-.. code-block:: text
+    .. code-block:: bash

-    http://localhost:8888/
+        docker run -it -v $PWD:/work paddle /work/a.py

-就这么简单，享受您的旅程！
+    这里`a.py`包含的所有依赖假设都可以在Paddle的运行容器中。如果需要包含更多的依赖、或者需要发布您的应用的镜像，可以编写`Dockerfile`使用`FROM paddledev/paddle:<version>`
+    创建和发布自己的AI程序镜像。

+运行PaddlePaddle书籍
+---------------------

-非AVX镜像
---------
+Jupyter Notebook是一个开源的web程序，大家可以通过它制作和分享带有代码、公式、图表、文字的交互式文档。用户可以通过网页浏览文档。
+
+PaddlePaddle书籍是为用户和开发者制作的一个交互式的Jupyter Nodebook。
+如果您想要更深入了解deep learning，PaddlePaddle书籍一定是您最好的选择。

-纯CPU镜像以及GPU镜像都会用到AVX指令集，但是2008年之前生产的旧电脑不支持AVX。以下指令能检查Linux电脑是否支持AVX：
+我们提供可以直接运行PaddlePaddle书籍的docker镜像，直接运行：

 .. code-block:: bash

-   if cat /proc/cpuinfo | grep -i avx; then echo Yes; else echo No; fi
+    docker run -p 8888:8888 paddlepaddle/book

-如果输出是No，我们就需要手动编译一个非AVX版本的镜像：
+然后在浏览器中输入以下网址：

-.. code-block:: bash
+.. code-block:: text

-   cd ~
-   git clone https://github.com/PaddlePaddle/Paddle.git
-   cd Paddle
-   docker build --build-arg WITH_AVX=OFF -t paddle:cpu-noavx -f paddle/scripts/docker/Dockerfile .
-   docker build --build-arg WITH_AVX=OFF -t paddle:gpu-noavx -f paddle/scripts/docker/Dockerfile.gpu .
+    http://localhost:8888/

+就这么简单，享受您的旅程！

 通过Docker容器开发PaddlePaddle
 ------------------------------

-开发人员可以在Docker中开发PaddlePaddle。这样开发人员可以以一致的方式在不同的平台上工作 - Linux，Mac OS X和Windows。
+开发人员可以在Docker开发镜像中开发PaddlePaddle。这样开发人员可以以一致的方式在不同的平台上工作 - Linux，Mac OS X和Windows。
+
+1. 构建开发镜像

-1. 将开发环境构建为Docker镜像
-   
   .. code-block:: bash

      git clone --recursive https://github.com/PaddlePaddle/Paddle
      cd Paddle
-      docker build -t paddle:dev -f paddle/scripts/docker/Dockerfile .
+      docker build -t paddle:dev .


-   请注意，默认情况下，:code:`docker build` 不会将源码导入到镜像中并编译它。如果我们想这样做，需要设置一个参数：
+   请注意，默认情况下，:code:`docker build` 不会将源码导入到镜像中并编译它。如果我们想这样做，需要构建完开发镜像，然后执行：

   .. code-block:: bash

-      docker build -t paddle:dev -f paddle/scripts/docker/Dockerfile --build-arg BUILD_AND_INSTALL=ON .
+      docker run -v $PWD:/paddle -e "WITH_GPU=OFF" -e "WITH_AVX=ON" -e "TEST=OFF" paddle:dev


 2. 运行开发环境

   当我们编译好了 :code:`paddle:dev`， 我们可以在docker容器里做开发，源代码可以通过挂载本地文件来被载入Docker的开发环境里面：
-   
+
   .. code-block:: bash

-      docker run -d -p 2202:22 -v $PWD:/paddle paddle:dev
+      docker run -d -p 2202:22 -v $PWD:/paddle paddle:dev sshd

   以上代码会启动一个带有PaddlePaddle开发环境的docker容器，源代码会被挂载到 :code:`/paddle` 。

-   请注意， :code:`paddle:dev` 的默认入口是 :code:`sshd` 。以上的 :code:`docker run` 命令其实会启动一个在2202端口监听的SSHD服务器。这样，我们就能SSH进入我们的开发容器了：
-   
+   以上的 :code:`docker run` 命令其实会启动一个在2202端口监听的SSHD服务器。这样，我们就能SSH进入我们的开发容器了：
+
   .. code-block:: bash

      ssh root@localhost -p 2202
@@ -124,13 +137,13 @@ PaddlePaddle书籍是为用户和开发者制作的一个交互式的Jupyter Nod
 3. 在Docker开发环境中编译与安装PaddlPaddle代码

   当在容器里面的时候，可以用脚本 :code:`paddle/scripts/docker/build.sh` 来编译、安装与测试PaddlePaddle：
-   
+
   .. code-block:: bash
-		      
+
      /paddle/paddle/scripts/docker/build.sh

   以上指令会在 :code:`/paddle/build` 中编译PaddlePaddle。通过以下指令可以运行单元测试：
-   
+
   .. code-block:: bash

      cd /paddle/build
@@ -140,14 +153,14 @@ PaddlePaddle书籍是为用户和开发者制作的一个交互式的Jupyter Nod
 文档
 ----

-Paddle的Docker镜像带有一个通过 `woboq code browser
+Paddle的Docker开发镜像带有一个通过 `woboq code browser
 <https://github.com/woboq/woboq_codebrowser>`_ 生成的HTML版本的C++源代码，便于用户浏览C++源码。

 只要在Docker里启动PaddlePaddle的时候给它一个名字，就可以再运行另一个Nginx Docker镜像来服务HTML代码：

 .. code-block:: bash

-   docker run -d --name paddle-cpu-doc paddle:0.10.0rc1-cpu
+   docker run -d --name paddle-cpu-doc paddle:<version>-dev
   docker run -d --volumes-from paddle-cpu-doc -p 8088:80 nginx

 接着我们就能够打开浏览器在 http://localhost:8088/paddle/ 浏览代码。
--- a/doc/getstarted/build_and_install/docker_install_en.rst
+++ b/doc/getstarted/build_and_install/docker_install_en.rst
@@ -12,44 +12,91 @@ of your hardware resource on Mac OS X and Windows.
 Usage of CPU-only and GPU Images
 ----------------------------------

-For each version of PaddlePaddle, we release 2 Docker images, a
-CPU-only one and a CUDA GPU one.  We do so by configuring
-`dockerhub.com <https://hub.docker.com/r/paddledev/paddle/>`_
-automatically generate the latest docker images `paddledev/paddle:0.10.0rc1-cpu`
-and `paddledev/paddle:0.10.0rc1-gpu`.
+For each version of PaddlePaddle, we release 2 types of Docker images: development
+image and production image. Production image includes CPU-only version and a CUDA
+GPU version and their no-AVX versions. We put the docker images on
+`dockerhub.com <https://hub.docker.com/r/paddledev/paddle/>`_. You can find the
+latest versions under "tags" tab at dockerhub.com.
+1. development image :code:`paddlepaddle/paddle:<version>-dev`

-To run the CPU-only image as an interactive container:
+    This image has packed related develop tools and runtime environment. Users and
+    developers can use this image instead of their own local computer to accomplish
+    development, build, releasing, document writing etc. While different version of
+    paddle may depends on different version of libraries and tools, if you want to
+    setup a local environment, you must pay attention to the versions.
+    The development image contains:
+    - gcc/clang
+    - nvcc
+    - Python
+    - sphinx
+    - woboq
+    - sshd
+    Many developers use servers with GPUs, they can use ssh to login to the server
+    and run :code:`docker exec` to enter the docker container and start their work.
+    Also they can start a development docker image with SSHD service, so they can login to
+    the container and start work.

-.. code-block:: bash
+    To run the CPU-only image as an interactive container:

-    docker run -it --rm paddledev/paddle:0.10.0rc1-cpu /bin/bash
+    .. code-block:: bash

-or, we can run it as a daemon container
+        docker run -it --rm paddledev/paddle:<version> /bin/bash

-.. code-block:: bash
+    or, we can run it as a daemon container

-    docker run -d -p 2202:22 -p 8888:8888 paddledev/paddle:0.10.0rc1-cpu
+    .. code-block:: bash

-and SSH to this container using password :code:`root`:
+        docker run -d -p 2202:22 -p 8888:8888 paddledev/paddle:<version>

-.. code-block:: bash
+    and SSH to this container using password :code:`root`:

-    ssh -p 2202 root@localhost
+    .. code-block:: bash

-An advantage of using SSH is that we can connect to PaddlePaddle from
-more than one terminals.  For example, one terminal running vi and
-another one running Python interpreter.  Another advantage is that we
-can run the PaddlePaddle container on a remote server and SSH to it
-from a laptop.
+        ssh -p 2202 root@localhost

-Above methods work with the GPU image too -- just please don't forget
-to install CUDA driver and let Docker knows about it:
+    An advantage of using SSH is that we can connect to PaddlePaddle from
+    more than one terminals.  For example, one terminal running vi and
+    another one running Python interpreter.  Another advantage is that we
+    can run the PaddlePaddle container on a remote server and SSH to it
+    from a laptop.

-.. code-block:: bash

-    export CUDA_SO="$(\ls /usr/lib64/libcuda* | xargs -I{} echo '-v {}:{}') $(\ls /usr/lib64/libnvidia* | xargs -I{} echo '-v {}:{}')"
-    export DEVICES=$(\ls /dev/nvidia* | xargs -I{} echo '--device {}:{}')
-    docker run ${CUDA_SO} ${DEVICES} -it paddledev/paddle:0.10.0rc1-gpu
+2. Production images, this image might have multiple variants:
+    - GPU/AVX：:code:`paddlepaddle/paddle:<version>-gpu`
+    - GPU/no-AVX：:code:`paddlepaddle/paddle:<version>-gpu-noavx`
+    - CPU/AVX：:code:`paddlepaddle/paddle:<version>`
+    - CPU/no-AVX：:code:`paddlepaddle/paddle:<version>-noavx`
+
+    Please be aware that the CPU-only and the GPU images both use the AVX
+    instruction set, but old computers produced before 2008 do not support
+    AVX.  The following command checks if your Linux computer supports
+    AVX:
+
+    .. code-block:: bash
+
+       if cat /proc/cpuinfo | grep -i avx; then echo Yes; else echo No; fi
+
+
+       If it doesn't, we will use the non-AVX images.
+
+    Notice please don't forget
+    to install CUDA driver and let Docker knows about it:
+
+    .. code-block:: bash
+
+        export CUDA_SO="$(\ls /usr/lib64/libcuda* | xargs -I{} echo '-v {}:{}') $(\ls /usr/lib64/libnvidia* | xargs -I{} echo '-v {}:{}')"
+        export DEVICES=$(\ls /dev/nvidia* | xargs -I{} echo '--device {}:{}')
+        docker run ${CUDA_SO} ${DEVICES} -it paddledev/paddle:<version>-gpu
+
+
+3. Use production image to release you AI application
+    Suppose that we have a simple application program in :code:`a.py`, we can test and run it using the production image:
+
+    ```bash
+    docker run -it -v $PWD:/work paddle /work/a.py
+    ```
+
+    But this works only if all dependencies of :code:`a.py` are in the production image. If this is not the case, we need to build a new Docker image from the production image and with more dependencies installs.


 PaddlePaddle Book
@@ -59,50 +106,24 @@ The Jupyter Notebook is an open-source web application that allows
 you to create and share documents that contain live code, equations,
 visualizations and explanatory text in a single browser.

-PaddlePaddle Book is an interactive Jupyter Notebook for users and developers. 
+PaddlePaddle Book is an interactive Jupyter Notebook for users and developers.
 We already exposed port 8888 for this book. If you want to
 dig deeper into deep learning, PaddlePaddle Book definitely is your best choice.

-Once you are inside the container, simply issue the command:
+We provide a packaged book image, simply issue the command:

 .. code-block:: bash
-        
-    jupyter notebook
+
+    docker run -p 8888:8888 paddlepaddle/book

 Then, you would back and paste the address into the local browser:
-    
+
 .. code-block:: text

    http://localhost:8888/

 That's all. Enjoy your journey!

-
-Non-AVX Images
--------------
-
-Please be aware that the CPU-only and the GPU images both use the AVX
-instruction set, but old computers produced before 2008 do not support
-AVX.  The following command checks if your Linux computer supports
-AVX:
-
-.. code-block:: bash
-
-   if cat /proc/cpuinfo | grep -i avx; then echo Yes; else echo No; fi
-
-
-If it doesn't, we will need to build non-AVX images manually from
-source code:
-
-.. code-block:: bash
-
-   cd ~
-   git clone https://github.com/PaddlePaddle/Paddle.git
-   cd Paddle
-   docker build --build-arg WITH_AVX=OFF -t paddle:cpu-noavx -f paddle/scripts/docker/Dockerfile .
-   docker build --build-arg WITH_AVX=OFF -t paddle:gpu-noavx -f paddle/scripts/docker/Dockerfile.gpu .
-
-
 Development Using Docker
 ------------------------

@@ -110,22 +131,21 @@ Developers can work on PaddlePaddle using Docker.  This allows
 developers to work on different platforms -- Linux, Mac OS X, and
 Windows -- in a consistent way.

-1. Build the Development Environment as a Docker Image
+1. Build the Development Docker Image

   .. code-block:: bash

      git clone --recursive https://github.com/PaddlePaddle/Paddle
      cd Paddle
-      docker build -t paddle:dev -f paddle/scripts/docker/Dockerfile .
-
+      docker build -t paddle:dev .

   Note that by default :code:`docker build` wouldn't import source
-   tree into the image and build it.  If we want to do that, we need
-   to set a build arg:
+   tree into the image and build it.  If we want to do that, we need docker the
+   development docker image and then run the following command:

   .. code-block:: bash

-      docker build -t paddle:dev -f paddle/scripts/docker/Dockerfile --build-arg BUILD_AND_INSTALL=ON .
+      docker run -v $PWD:/paddle -e "WITH_GPU=OFF" -e "WITH_AVX=ON" -e "TEST=OFF" paddle:dev


 2. Run the Development Environment
@@ -136,14 +156,13 @@ Windows -- in a consistent way.

   .. code-block:: bash

-      docker run -d -p 2202:22 -p 8888:8888 -v $PWD:/paddle paddle:dev
+      docker run -d -p 2202:22 -p 8888:8888 -v $PWD:/paddle paddle:dev sshd

   This runs a container of the development environment Docker image
   with the local source tree mounted to :code:`/paddle` of the
   container.

-   Note that the default entry-point of :code:`paddle:dev` is
-   :code:`sshd`, and above :code:`docker run` commands actually starts
+   The above :code:`docker run` commands actually starts
   an SSHD server listening on port 2202.  This allows us to log into
   this container with:

@@ -191,7 +210,7 @@ container:

 .. code-block:: bash

-   docker run -d --name paddle-cpu-doc paddle:0.10.0rc1-cpu
+   docker run -d --name paddle-cpu-doc paddle:<version>
   docker run -d --volumes-from paddle-cpu-doc -p 8088:80 nginx