update reader (#5133)

* cherry-pick #5129

update reader (#5133)
* cherry-pick #5129
c210e7ed · liu zhengxi · GitHub · 63b738e3 · c210e7ed · c210e7ed
Showing with 14 addition and 20 deletion

PaddleNLP/benchmark/transformer/reader.py PaddleNLP/benchmark/transformer/reader.py +7 -10

PaddleNLP/examples/machine_translation/transformer/reader.py PaddleNLP/examples/machine_translation/transformer/reader.py +7 -10

未找到文件。
--- a/PaddleNLP/benchmark/transformer/reader.py
+++ b/PaddleNLP/benchmark/transformer/reader.py
@@ -66,20 +66,17 @@ def create_data_loader(args):
                min_max_filer, max_len=args.max_length))
        sampler = SamplerHelper(dataset)
-        src_key = (lambda x, data_source: len(data_source[x][0]) + 1)
        if args.sort_type == SortType.GLOBAL:
-            buffer_size = -1
+            src_key = (lambda x, data_source: len(data_source[x][0]) + 1)
            trg_key = (lambda x, data_source: len(data_source[x][1]) + 1)
            # Sort twice
-            sampler = sampler.sort(
+            sampler = sampler.sort(key=trg_key).sort(key=src_key)
-                key=trg_key, buffer_size=buffer_size).sort(
-                    key=src_key, buffer_size=buffer_size)
        else:
            if args.shuffle:
                sampler = sampler.shuffle(seed=shuffle_seed)
+            max_key = (lambda x, data_source: max(len(data_source[x][0]), len(data_source[x][1])) + 1)
            if args.sort_type == SortType.POOL:
-                buffer_size = args.pool_size
+                sampler = sampler.sort(key=max_key, buffer_size=args.pool_size)
-                sampler = sampler.sort(key=src_key, buffer_size=buffer_size)
        batch_sampler = sampler.batch(
            batch_size=args.batch_size,
@@ -87,12 +84,12 @@ def create_data_loader(args):
            batch_size_fn=_max_token_fn,
            key=_key)
-        if m == "train":
-            batch_sampler = batch_sampler.shard()
        if args.shuffle_batch:
            batch_sampler.shuffle(seed=shuffle_seed)
+        if m == "train":
+            batch_sampler = batch_sampler.shard()
        data_loader = DataLoader(
            dataset=dataset,
            batch_sampler=batch_sampler,

--- a/PaddleNLP/examples/machine_translation/transformer/reader.py
+++ b/PaddleNLP/examples/machine_translation/transformer/reader.py
@@ -66,20 +66,17 @@ def create_data_loader(args):
                min_max_filer, max_len=args.max_length))
        sampler = SamplerHelper(dataset)
-        src_key = (lambda x, data_source: len(data_source[x][0]) + 1)
        if args.sort_type == SortType.GLOBAL:
-            buffer_size = -1
+            src_key = (lambda x, data_source: len(data_source[x][0]) + 1)
            trg_key = (lambda x, data_source: len(data_source[x][1]) + 1)
            # Sort twice
-            sampler = sampler.sort(
+            sampler = sampler.sort(key=trg_key).sort(key=src_key)
-                key=trg_key, buffer_size=buffer_size).sort(
-                    key=src_key, buffer_size=buffer_size)
        else:
            if args.shuffle:
                sampler = sampler.shuffle(seed=shuffle_seed)
+            max_key = (lambda x, data_source: max(len(data_source[x][0]), len(data_source[x][1])) + 1)
            if args.sort_type == SortType.POOL:
-                buffer_size = args.pool_size
+                sampler = sampler.sort(key=max_key, buffer_size=args.pool_size)
-                sampler = sampler.sort(key=src_key, buffer_size=buffer_size)
        batch_sampler = sampler.batch(
            batch_size=args.batch_size,
@@ -87,12 +84,12 @@ def create_data_loader(args):
            batch_size_fn=_max_token_fn,
            key=_key)
-        if m == "train":
-            batch_sampler = batch_sampler.shard()
        if args.shuffle_batch:
            batch_sampler.shuffle(seed=shuffle_seed)
+        if m == "train":
+            batch_sampler = batch_sampler.shard()
        data_loader = DataLoader(
            dataset=dataset,
            batch_sampler=batch_sampler,