use fetch_all api instead download dataset one by one

ea353b72 · Yancey1989 · ad5be8a3 · ea353b72 · ad5be8a3
隐藏空白更改
内联并排

Showing with 4 addition and 54 deletion

.tools/build_docker.sh .tools/build_docker.sh +4 -2

.tools/cache_dataset.py .tools/cache_dataset.py +0 -52

未找到文件。
--- a/.tools/build_docker.sh
+++ b/.tools/build_docker.sh
@@ -25,8 +25,10 @@ MAINTAINER PaddlePaddle Authors <paddle-dev@baidu.com>
 COPY . /book
-RUN pip install -U nltk \
+#RUN pip install -U nltk \
-    && python /book/.tools/cache_dataset.py
+#    && python /book/.tools/cache_dataset.py
+RUN python -c "import paddle.v2.dataset as dataset; dataset.fetch_all()"
 RUN ${update_mirror_cmd}
    apt-get update && \

--- a/.tools/cache_dataset.py
+++ b/.tools/cache_dataset.py
-#!/bin/env python
-import paddle.v2.dataset as dataset
-import nltk
-#cifar
-dataset.common.download(dataset.cifar.CIFAR100_URL, 'cifar',
-                        dataset.cifar.CIFAR100_MD5)
-dataset.common.download(dataset.cifar.CIFAR10_URL, 'cifar',
-                        dataset.cifar.CIFAR10_MD5)
-# Cache conll05
-dataset.common.download(dataset.conll05.WORDDICT_URL, 'conll05st', \
-                        dataset.conll05.WORDDICT_MD5)
-dataset.common.download(dataset.conll05.VERBDICT_URL, 'conll05st', \
-                        dataset.conll05.VERBDICT_MD5)
-dataset.common.download(dataset.conll05.TRGDICT_URL, 'conll05st', \
-                        dataset.conll05.TRGDICT_MD5)
-dataset.common.download(dataset.conll05.EMB_URL, 'conll05st',
-                        dataset.conll05.EMB_MD5)
-dataset.common.download(dataset.conll05.DATA_URL, 'conll05st',
-                        dataset.conll05.DATA_MD5)
-# Cache imdb
-dataset.common.download(dataset.imdb.URL, "imdb", dataset.imdb.MD5)
-# Cache imikolov
-dataset.common.download(dataset.imikolov.URL, "imikolov", dataset.imikolov.MD5)
-# Cache movielens
-dataset.common.download('http://files.grouplens.org/datasets/movielens/ml-1m.zip',\
-                        'movielens','c4d9eecfca2ab87c1945afe126590906')
-# Cache nltk
-nltk.download('movie_reviews', download_dir=dataset.common.DATA_HOME)
-# Cache uci housing
-dataset.common.download(dataset.uci_housing.URL, "uci_housing", \
-                        dataset.uci_housing.MD5)
-# Cache vmt14
-dataset.common.download(dataset.wmt14.URL_TRAIN, "wmt14",\
-                        dataset.wmt14.MD5_TRAIN)
-#mnist
-dataset.common.download(dataset.mnist.TRAIN_IMAGE_URL, 'mnist',
-                        dataset.mnist.TRAIN_IMAGE_MD5)
-dataset.common.download(dataset.mnist.TRAIN_LABEL_URL, 'mnist',
-                        dataset.mnist.TRAIN_LABEL_MD5)
-dataset.common.download(dataset.mnist.TEST_IMAGE_URL, 'mnist',
-                        dataset.mnist.TEST_IMAGE_MD5)
-dataset.common.download(dataset.mnist.TEST_LABEL_URL, 'mnist',
-                        dataset.mnist.TEST_LABEL_MD5)