diff --git a/PaddleNLP/docs/metrics.md b/PaddleNLP/docs/metrics.md index dcfbcee1d2fa42f01375d6b11f6c0b218619768a..54f26ae018364440dc2472276f1c4337b91c09c5 100644 --- a/PaddleNLP/docs/metrics.md +++ b/PaddleNLP/docs/metrics.md @@ -1 +1,14 @@ # paddlenlp.metrics API汇总 + +目前paddlenlp提供以下评价指标: + +| Metric | 简介 | API | +| -------------------------------------------------------- | :----------------------------------------------------------- | ------------------------------------------------------------ | +| Perplexity | 困惑度,常用来衡量语言模型优劣,也可用于机器翻译、文本生成等任务。 | `paddlenlp.metrics.Perplexity` | +| BLEU(bilingual evaluation understudy) | 机器翻译常用评价指标 | `paddlenlp.metrics.BLEU` | +| Rouge(Recall-Oriented Understudy for Gisting Evaluation) | 评估自动文摘以及机器翻译的指标 | `paddlenlp.metrics.RougeL`, `paddlenlp.metrics.RougeN` | +| AccuracyAndF1 | 准确率及F1-score,可用于GLUE中的MRPC 和QQP任务 | `paddlenlp.metrics.AccuracyAndF1` | +| PearsonAndSpearman | 皮尔森相关性系数和斯皮尔曼相关系数。可用于GLUE中的STS-B任务 | `paddlenlp.metrics.PearsonAndSpearman` | +| Mcc(Matthews correlation coefficient) | 马修斯相关系数,用以测量二分类的分类性能的指标。可用于GLUE中的CoLA任务 | `paddlenlp.metrics.Mcc` | +| ChunkEvaluator | 计算了块检测的精确率、召回率和F1-score。常用于序列标记任务,如命名实体识别(NER) | `paddlenlp.metrics.ChunkEvaluator` | +| Squad | 用于SQuAD和DuReader-robust的评价指标 | `paddlenlp.metrics.compute_predictions`, `paddlenlp.metrics.squad_evaluate` | diff --git a/PaddleNLP/paddlenlp/metrics/README.md b/PaddleNLP/paddlenlp/metrics/README.md index ddb0b89a1f53373740a29bc329fdf0cbda889258..eac5ba16974b1a62b2b59a6b7ea5054b4cd9d5b2 100644 --- a/PaddleNLP/paddlenlp/metrics/README.md +++ b/PaddleNLP/paddlenlp/metrics/README.md @@ -2,13 +2,13 @@ 目前paddlenlp提供以下评价指标: -| Metric | 简介 | API | -| ---------------------------------------------------------- | :----------------------------------------------------------- | ------------------------------------------------------------ | -| Perplexity | 困惑度,常用来衡量语言模型优劣,也可用于机器翻译、文本生成等任务。 | paddlenlp.metrics.Perplexity | -| BLEU(bilingual evaluation understudy) | 机器翻译常用评价指标 | paddlenlp.metrics.BLEU | -| Rouge-L(Recall-Oriented Understudy for Gisting Evaluation) | 评估自动文摘以及机器翻译的指标 | paddlenlp.metrics.RougeL | -| AccuracyAndF1 | 准确率及F1-score,可用于GLUE中的MRPC 和QQP任务 | paddlenlp.metrics.AccuracyAndF1 | -| PearsonAndSpearman | 皮尔森相关性系数和斯皮尔曼相关系数。可用于GLUE中的STS-B任务 | paddlenlp.metrics.PearsonAndSpearman | -| Mcc(Matthews correlation coefficient) | 马修斯相关系数,用以测量二分类的分类性能的指标。可用于GLUE中的CoLA任务 | paddlenlp.metrics.Mcc | -| ChunkEvaluator | 计算了块检测的精确率、召回率和F1-score。常用于序列标记任务,如命名实体识别(NER) | paddlenlp.metrics.ChunkEvaluator | -| Squad | 用于SQuAD和DuReader-robust的评价指标 | paddlenlp.metrics.compute_predictions paddlenlp.metrics.squad_evaluate | +| Metric | 简介 | API | +| -------------------------------------------------------- | :----------------------------------------------------------- | ------------------------------------------------------------ | +| Perplexity | 困惑度,常用来衡量语言模型优劣,也可用于机器翻译、文本生成等任务。 | `paddlenlp.metrics.Perplexity` | +| BLEU(bilingual evaluation understudy) | 机器翻译常用评价指标 | `paddlenlp.metrics.BLEU` | +| Rouge(Recall-Oriented Understudy for Gisting Evaluation) | 评估自动文摘以及机器翻译的指标 | `paddlenlp.metrics.RougeL`, `paddlenlp.metrics.RougeN` | +| AccuracyAndF1 | 准确率及F1-score,可用于GLUE中的MRPC 和QQP任务 | `paddlenlp.metrics.AccuracyAndF1` | +| PearsonAndSpearman | 皮尔森相关性系数和斯皮尔曼相关系数。可用于GLUE中的STS-B任务 | `paddlenlp.metrics.PearsonAndSpearman` | +| Mcc(Matthews correlation coefficient) | 马修斯相关系数,用以测量二分类的分类性能的指标。可用于GLUE中的CoLA任务 | `paddlenlp.metrics.Mcc` | +| ChunkEvaluator | 计算了块检测的精确率、召回率和F1-score。常用于序列标记任务,如命名实体识别(NER) | `paddlenlp.metrics.ChunkEvaluator` | +| Squad | 用于SQuAD和DuReader-robust的评价指标 | `paddlenlp.metrics.compute_predictions`, `paddlenlp.metrics.squad_evaluate` |