Merge pull request #16 from xixiaoyao/master

fix bugs

Merge pull request #16 from xixiaoyao/master
fix bugs
5744ddb8 · Xiaoyao Xi · GitHub · 20f241fa · 42f9ba10 · 5744ddb8
隐藏空白更改
内联并排

Showing with 13 addition and 16 deletion

config_demo2.yaml config_demo2.yaml +4 -4

paddlepalm/task_paradigm/mlm.py paddlepalm/task_paradigm/mlm.py +4 -9

paddlepalm/task_paradigm/mrc.py paddlepalm/task_paradigm/mrc.py +5 -3

未找到文件。
--- a/config_demo2.yaml
+++ b/config_demo2.yaml
-task_instance: "mrqa, match4mrqa"
-target_tag: 1, 0
-mix_ratio: 0.5, 0.5
+task_instance: "mrqa, mlm4mrqa, match4mrqa"
+target_tag: 1, 0, 0
+mix_ratio: 0.5, 1.0, 0.5

 save_path: "output_model/secondrun"

@@ -12,7 +12,7 @@ do_lower_case: True
 max_seq_len: 512

 batch_size: 4
-num_epochs: 0.5
+num_epochs: 2
 optimizer: "adam"
 learning_rate: 3e-5
 warmup_proportion: 0.1

--- a/paddlepalm/task_paradigm/mlm.py
+++ b/paddlepalm/task_paradigm/mlm.py
@@ -51,12 +51,14 @@ class TaskParadigm(task_paradigm):
            return {"logits": [[-1], 'float32']}

    def build(self, inputs):
+        mask_pos = inputs["reader"]["mask_pos"]
        if self._is_training:
            mask_label = inputs["reader"]["mask_label"] 
            # 多任务学习时才需要引入这个，防止其他run其他任务时导致seqlen过小，gather超范围
-            batchsize_x_seqlen = inputs["reader"]["batchsize_x_seqlen"] 
+            max_position = inputs["reader"]["batchsize_x_seqlen"] - 1
+            mask_pos = fluid.layers.elementwise_min(mask_pos, max_position)
+            mask_pos.stop_gradient = True

-        mask_pos = inputs["reader"]["mask_pos"] 
        word_emb = inputs["backbone"]["embedding_table"]
        enc_out = inputs["backbone"]["encoder_outputs"]

@@ -65,13 +67,6 @@ class TaskParadigm(task_paradigm):
        _param_initializer = fluid.initializer.TruncatedNormal(
            scale=self._initializer_range)

-        if self._is_training:
-            # 多任务训练时才需要引入这个，防止其他run其他任务时导致seqlen过小，gather超范围
-            # mask_pos = fluid.layers.cast(x=mask_pos, dtype='int32')
-            mask_pos = fluid.layers.elementwise_min(mask_pos, batchsize_x_seqlen)
-
-        #print(fluid.default_main_program().blocks[0].vars)
-
        reshaped_emb_out = fluid.layers.reshape(
            x=enc_out, shape=[-1, emb_size])


--- a/paddlepalm/task_paradigm/mrc.py
+++ b/paddlepalm/task_paradigm/mrc.py
@@ -77,9 +77,11 @@ class TaskParadigm(task_paradigm):
        if self._is_training:
            start_positions = inputs['reader']['start_positions']
            end_positions = inputs['reader']['end_positions']
-            seqlen = inputs["reader"]["seqlen"] 
-            start_positions = fluid.layers.elementwise_min(start_positions, seqlen)
-            end_positions = fluid.layers.elementwise_min(end_positions, seqlen)
+            max_position = inputs["reader"]["seqlen"] - 1
+            start_positions = fluid.layers.elementwise_min(start_positions, max_position)
+            end_positions = fluid.layers.elementwise_min(end_positions, max_position)
+            start_positions.stop_gradient = True
+            end_positions.stop_gradient = True
        else:
            unique_id = inputs['reader']['unique_ids']