diff --git a/applications/tasks/data_distillation/README.md b/applications/tasks/data_distillation/README.md index 161d54021327a7ac32821effb82dc4b55587a625..9b13b400378734e50494328994184f399287c77f 100644 --- a/applications/tasks/data_distillation/README.md +++ b/applications/tasks/data_distillation/README.md @@ -47,7 +47,7 @@ data_distillation/ ## 数据准备 -- 目前采用三种数据增强策略策略,对于不用的任务可以特定的比例混合。三种[数据增强](../../tools/data/data_aug/README.md)策略包括: +- 目前采用三种数据增强策略策略,对于不用的任务可以特定的比例混合。三种[数据增强](../../tools/data/data_aug)策略包括: - 添加噪声:对原始样本中的词,以一定的概率(如0.1)替换为”UNK”标签 - 同词性词替换:对原始样本中的所有词,以一定的概率(如0.1)替换为本数据集中随机一个同词性的词 - N-sampling:从原始样本中,随机选取位置截取长度为m的片段作为新的样本,其中片段的长度m为0到原始样本长度之间的随机值