better eval sampler (#2907)

Co-authored-by: N Olatunji Ruwase <olruwase@microsoft.com>

better eval sampler (#2907)
Co-authored-by: N Olatunji Ruwase <olruwase@microsoft.com>
f1d2a15b · Mayank Mishra · GitHub · 541e423a · f1d2a15b
显示空白变更内容
内联并排

Showing with 8 addition and 3 deletion

deepspeed/runtime/engine.py deepspeed/runtime/engine.py +8 -3

未找到文件。
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -1673,9 +1673,6 @@ class DeepSpeedEngine(Module):
                or self.is_iterable_style_dataset(dataset)):
            raise ValueError("Training data must be a torch Dataset")

-        if data_sampler is None and (route == ROUTE_PREDICT or route == ROUTE_EVAL):
-            data_sampler = torch.utils.data.SequentialSampler(dataset)
-
        if batch_size is None:
            batch_size = self.train_micro_batch_size_per_gpu()

@@ -1694,6 +1691,14 @@ class DeepSpeedEngine(Module):
            data_parallel_world_size = self.mpu.get_data_parallel_world_size()
            data_parallel_rank = self.mpu.get_data_parallel_rank()

+        if data_sampler is None and (route == ROUTE_PREDICT or route == ROUTE_EVAL):
+            data_sampler = torch.utils.data.DistributedSampler(
+                dataset,
+                num_replicas=data_parallel_world_size,
+                rank=data_parallel_rank,
+                shuffle=False,
+            )
+
        deepspeed_dataloader_config = {}
        if self.curriculum_learning_enabled():
            deepspeed_dataloader_config = {