fix_xmap and refine flowers dataset

80642bee · wanghaoshuang · 633082ad · 80642bee · 80642bee · 80642bee
5 changed file
--- a/python/paddle/v2/dataset/__init__.py
+++ b/python/paddle/v2/dataset/__init__.py
@@ -25,8 +25,9 @@ import uci_housing
 import sentiment
 import wmt14
 import mq2007
+import flowers
 __all__ = [
    'mnist', 'imikolov', 'imdb', 'cifar', 'movielens', 'conll05', 'sentiment'
-    'uci_housing', 'wmt14', 'mq2007'
+    'uci_housing', 'wmt14', 'mq2007', 'flowers'
 ]
--- a/python/paddle/v2/dataset/flowers.py
+++ b/python/paddle/v2/dataset/flowers.py
@@ -13,18 +13,18 @@
 # limitations under the License.
 """
 This module will download dataset from
-http://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html 
+http://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html
 and parse train/test set intopaddle reader creators.
-This set contains images of flowers belonging to 102 different categories. 
+This set contains images of flowers belonging to 102 different categories.
 The images were acquired by searching the web and taking pictures. There are a
 minimum of 40 images for each category.
 The database was used in:
 Nilsback, M-E. and Zisserman, A. Automated flower classification over a large
- number of classes.Proceedings of the Indian Conference on Computer Vision, 
+ number of classes.Proceedings of the Indian Conference on Computer Vision,
-Graphics and Image Processing (2008) 
+Graphics and Image Processing (2008)
 http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.{pdf,ps.gz}.
 """
@@ -34,9 +34,9 @@ from common import download
 import tarfile
 import scipy.io as scio
 from paddle.v2.image import *
+from paddle.v2.reader import *
 import os
 import numpy as np
-import paddle.v2 as paddle
 from multiprocessing import cpu_count
 __all__ = ['train', 'test', 'valid']
@@ -53,8 +53,8 @@ def default_mapper(sample):
    map image bytes data to type needed by model input layer
    '''
    img, label = sample
-    img = paddle.image.load_image_bytes(img)
+    img = load_image_bytes(img)
-    img = paddle.image.simple_transform(img, 256, 224, True)
+    img = simple_transform(img, 256, 224, True)
    return img.flatten().astype('float32'), label
@@ -63,22 +63,23 @@ def reader_creator(data_file,
                   setid_file,
                   dataset_name,
                   mapper=default_mapper,
-                   buffered_size=1024):
+                   buffered_size=1024,
+                   useXmap=True):
    '''
-    1. read images from tar file and 
+    1. read images from tar file and
        merge images into batch files in 102flowers.tgz_batch/
    2. get a reader to read sample from batch file
-    :param data_file: downloaded data file 
+    :param data_file: downloaded data file
    :type data_file: string
-    :param label_file: downloaded label file 
+    :param label_file: downloaded label file
    :type label_file: string
    :param setid_file: downloaded setid file containing information
                        about how to split dataset
    :type setid_file: string
    :param dataset_name: data set name (tstid|trnid|valid)
    :type dataset_name: string
-    :param mapper: a function to map image bytes data to type 
+    :param mapper: a function to map image bytes data to type
                    needed by model input layer
    :type mapper: callable
    :param buffered_size: the size of buffer used to process images
@@ -105,15 +106,17 @@ def reader_creator(data_file,
            for sample, label in itertools.izip(data, batch['label']):
                yield sample, int(label)
-    return paddle.reader.xmap_readers(mapper, reader,
+    if useXmap:
-                                      cpu_count(), buffered_size)
+        return xmap_readers(mapper, reader, cpu_count(), buffered_size)
+    else:
+        return map_readers(mapper, reader)
-def train(mapper=default_mapper, buffered_size=1024):
+def train(mapper=default_mapper, buffered_size=1024, useXmap=True):
    '''
-    Create flowers training set reader. 
+    Create flowers training set reader.
-    It returns a reader, each sample in the reader is   
+    It returns a reader, each sample in the reader is
-    image pixels in [0, 1] and label in [1, 102] 
+    image pixels in [0, 1] and label in [1, 102]
    translated from original color image by steps:
    1. resize to 256*256
    2. random crop to 224*224
@@ -128,15 +131,15 @@ def train(mapper=default_mapper, buffered_size=1024):
    return reader_creator(
        download(DATA_URL, 'flowers', DATA_MD5),
        download(LABEL_URL, 'flowers', LABEL_MD5),
-        download(SETID_URL, 'flowers', SETID_MD5), 'trnid', mapper,
+        download(SETID_URL, 'flowers', SETID_MD5), 'tstid', mapper,
-        buffered_size)
+        buffered_size, useXmap)
-def test(mapper=default_mapper, buffered_size=1024):
+def test(mapper=default_mapper, buffered_size=1024, useXmap=True):
    '''
-    Create flowers test set reader. 
+    Create flowers test set reader.
-    It returns a reader, each sample in the reader is   
+    It returns a reader, each sample in the reader is
-    image pixels in [0, 1] and label in [1, 102] 
+    image pixels in [0, 1] and label in [1, 102]
    translated from original color image by steps:
    1. resize to 256*256
    2. random crop to 224*224
@@ -151,15 +154,15 @@ def test(mapper=default_mapper, buffered_size=1024):
    return reader_creator(
        download(DATA_URL, 'flowers', DATA_MD5),
        download(LABEL_URL, 'flowers', LABEL_MD5),
-        download(SETID_URL, 'flowers', SETID_MD5), 'tstid', mapper,
+        download(SETID_URL, 'flowers', SETID_MD5), 'trnid', mapper,
-        buffered_size)
+        buffered_size, useXmap)
-def valid(mapper=default_mapper, buffered_size=1024):
+def valid(mapper=default_mapper, buffered_size=1024, useXmap=True):
    '''
-    Create flowers validation set reader. 
+    Create flowers validation set reader.
-    It returns a reader, each sample in the reader is   
+    It returns a reader, each sample in the reader is
-    image pixels in [0, 1] and label in [1, 102] 
+    image pixels in [0, 1] and label in [1, 102]
    translated from original color image by steps:
    1. resize to 256*256
    2. random crop to 224*224
@@ -175,7 +178,7 @@ def valid(mapper=default_mapper, buffered_size=1024):
        download(DATA_URL, 'flowers', DATA_MD5),
        download(LABEL_URL, 'flowers', LABEL_MD5),
        download(SETID_URL, 'flowers', SETID_MD5), 'valid', mapper,
-        buffered_size)
+        buffered_size, useXmap)
 def fetch():

--- a/python/paddle/v2/dataset/tests/flowers_test.py
+++ b/python/paddle/v2/dataset/tests/flowers_test.py
@@ -31,13 +31,13 @@ class TestFlowers(unittest.TestCase):
    def test_train(self):
        instances, max_label_value = self.check_reader(
            paddle.v2.dataset.flowers.train())
-        self.assertEqual(instances, 1020)
+        self.assertEqual(instances, 6149)
        self.assertEqual(max_label_value, 102)
    def test_test(self):
        instances, max_label_value = self.check_reader(
            paddle.v2.dataset.flowers.test())
-        self.assertEqual(instances, 6149)
+        self.assertEqual(instances, 1020)
        self.assertEqual(max_label_value, 102)
    def test_valid(self):

--- a/python/paddle/v2/reader/decorator.py
+++ b/python/paddle/v2/reader/decorator.py
@@ -166,12 +166,12 @@ def buffered(reader, size):
    The buffered data reader will read and save data entries into a
    buffer. Reading from the buffered data reader will proceed as long
    as the buffer is not empty.
    :param reader: the data reader to read from.
    :type reader: callable
    :param size: max buffer size.
    :type size: int
    :returns: the buffered data reader.
    """
@@ -238,7 +238,7 @@ def xmap_readers(mapper, reader, process_num, buffer_size, order=False):
    :type mapper: callable
    :param reader: the data reader to read from
    :type reader: callable
-    :param process_num: process number to handle original sample 
+    :param process_num: process number to handle original sample
    :type process_num: int
    :param buffer_size: max buffer size
    :type buffer_size: int
@@ -248,9 +248,6 @@ def xmap_readers(mapper, reader, process_num, buffer_size, order=False):
    :rtype: callable
    """
    end = XmapEndSignal()
-    in_queue = Queue(buffer_size)
-    out_queue = Queue(buffer_size)
-    out_order = [0]
    # define a worker to read samples from reader to in_queue
    def read_worker(reader, in_queue):
@@ -266,12 +263,6 @@ def xmap_readers(mapper, reader, process_num, buffer_size, order=False):
            in_order += 1
        in_queue.put(end)
-    # start a read worker in a thread
-    target = order_read_worker if order else read_worker
-    t = Thread(target=target, args=(reader, in_queue))
-    t.daemon = True
-    t.start()
    # define a worker to handle samples from in_queue by mapper
    # and put mapped samples into out_queue
    def handle_worker(in_queue, out_queue, mapper):
@@ -298,19 +289,27 @@ def xmap_readers(mapper, reader, process_num, buffer_size, order=False):
        in_queue.put(end)
        out_queue.put(end)
-    # start several handle_workers
-    target = order_handle_worker if order else handle_worker
-    args = (in_queue, out_queue, mapper, out_order) if order else (
-        in_queue, out_queue, mapper)
-    workers = []
-    for i in xrange(process_num):
-        worker = Thread(target=target, args=args)
-        worker.daemon = True
-        workers.append(worker)
-    for w in workers:
-        w.start()
    def xreader():
+        in_queue = Queue(buffer_size)
+        out_queue = Queue(buffer_size)
+        out_order = [0]
+        # start a read worker in a thread
+        target = order_read_worker if order else read_worker
+        t = Thread(target=target, args=(reader, in_queue))
+        t.daemon = True
+        t.start()
+        # start several handle_workers
+        target = order_handle_worker if order else handle_worker
+        args = (in_queue, out_queue, mapper, out_order) if order else (
+            in_queue, out_queue, mapper)
+        workers = []
+        for i in xrange(process_num):
+            worker = Thread(target=target, args=args)
+            worker.daemon = True
+            workers.append(worker)
+        for w in workers:
+            w.start()
        sample = out_queue.get()
        while not isinstance(sample, XmapEndSignal):
            yield sample

--- a/python/paddle/v2/reader/tests/decorator_test.py
+++ b/python/paddle/v2/reader/tests/decorator_test.py
@@ -132,15 +132,17 @@ class TestXmap(unittest.TestCase):
        for order in orders:
            for tNum in thread_nums:
                for size in buffered_size:
-                    result = []
+                    reader = paddle.v2.reader.xmap_readers(mapper,
-                    for i in paddle.v2.reader.xmap_readers(mapper,
                                                           reader_creator_10(0),
-                                                           tNum, size, order)():
+                                                           tNum, size, order)
-                        result.append(i)
+                    for n in xrange(3):
-                    if not order:
+                        result = []
-                        result.sort()
+                        for i in reader():
-                    for idx, e in enumerate(result):
+                            result.append(i)
-                        self.assertEqual(e, mapper(idx))
+                        if not order:
+                            result.sort()
+                        for idx, e in enumerate(result):
+                            self.assertEqual(e, mapper(idx))
 if __name__ == '__main__':