diff --git a/PaddleNLP/README.md b/PaddleNLP/README.md index 884432c17afa43e69a51b7c07ca1ba0ba36a072a..e72687f162c04c3ec24db422603c2d0fa07796d8 100644 --- a/PaddleNLP/README.md +++ b/PaddleNLP/README.md @@ -10,7 +10,7 @@ - **丰富而全面的NLP任务支持:** - - PaddleNLP为您提供了多粒度,多场景的应用支持。涵盖了从[分词](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis),[词性标注](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis),[命名实体识别](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis)等NLP基础技术,到[文本分类](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/sentiment_classification),[文本相似度计算](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/similarity_net),[语义表示](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/language_representations_kit),[文本生成](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/PaddleTextGEN)等NLP核心技术。同时,PaddleNLP还提供了针对常见NLP大型应用系统(如[阅读理解](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/PaddleMRC),[对话系统](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/PaddleDialgoue),[机器翻译系统](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/PaddleMT)等)的特定核心技术和工具组件,模型和预训练参数等,让您在NLP领域畅通无阻。 + - PaddleNLP为您提供了多粒度,多场景的应用支持。涵盖了从[分词](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/lexical_analysis),[词性标注](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/lexical_analysis),[命名实体识别](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/lexical_analysis)等NLP基础技术,到[文本分类](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/sentiment_classification),[文本相似度计算](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/similarity_net),[语义表示](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/language_representations_kit),[文本生成](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleTextGEN)等NLP核心技术。同时,PaddleNLP还提供了针对常见NLP大型应用系统(如[阅读理解](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleMRC),[对话系统](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleDialgoue),[机器翻译系统](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleMT)等)的特定核心技术和工具组件,模型和预训练参数等,让您在NLP领域畅通无阻。 - **稳定可靠的NLP模型和强大的预训练参数:** @@ -34,7 +34,7 @@ - 克隆代码库到本地 ```shell -git clone https://github.com/PaddlePaddle/models.git +git clone -b release/1.6 https://github.com/PaddlePaddle/models.git ``` - 进入到特定的子目录中查看代码和运行任务(如情感分析) @@ -50,17 +50,17 @@ cd models/PaddleNLP/sentiment_classification | 任务场景 | 对应项目/目录 | 简介 | | :------------------------------------------------: | :----------------------------------------------------------: | :----------------------------------------------------------: | -| **中文分词**,**词性标注**,**命名实体识别**:fire: | [LAC](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis) | LAC,全称为Lexical Analysis of Chinese,是百度内部广泛使用的中文处理工具,功能涵盖从中文分词,词性标注,命名实体识别等常见中文处理任务。 | -| **词向量(word2vec)** | [word2vec](https://github.com/PaddlePaddle/models/tree/develop/PaddleRec/word2vec) | 提供单机多卡,多机等分布式训练中文词向量能力,支持主流词向量模型(skip-gram,cbow等),可以快速使用自定义数据训练词向量模型。 | -| **语言模型** | [Language_model](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/language_model) | 基于循环神经网络(RNN)的经典神经语言模型(neural language model)。 | -| **情感分类**:fire: | [Senta](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/sentiment_classification),[EmotionDetection](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/emotion_detection) | Senta(Sentiment Classification,简称Senta)和EmotionDetection两个项目分别提供了面向*通用场景*和*人机对话场景专用*的情感倾向性分析模型。 | -| **文本相似度计算**:fire: | [SimNet](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/similarity_net) | SimNet,又称为Similarity Net,为您提供高效可靠的文本相似度计算工具和预训练模型。 | -| **语义表示**:fire: | [PaddleLARK](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/language_representations_kit) | PaddleLARK,全称为Paddle LAngauge Representation Toolkit,集成了ELMO,BERT,ERNIE 1.0,ERNIE 2.0,XLNet等热门中英文预训练模型。 | -| **文本生成** | [PaddleTextGEN](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/PaddleTextGEN) | Paddle Text Generation为您提供了一些列经典文本生成模型案例,如vanilla seq2seq,seq2seq with attention,variational seq2seq模型等。 | -| **阅读理解** | [PaddleMRC](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/PaddleMRC) | PaddleMRC,全称为Paddle Machine Reading Comprehension,集合了百度在阅读理解领域相关的模型,工具,开源数据等一系列工作。包括DuReader (百度开源的基于真实搜索用户行为的中文大规模阅读理解数据集),KT-Net (结合知识的阅读理解模型,SQuAD以及ReCoRD曾排名第一), D-Net (预训练-微调框架,在EMNLP2019 MRQA国际阅读理解评测获得第一),等。 | -| **对话系统** | [PaddleDialogue](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/PaddleDialogue) | 包括:1)DGU(Dialogue General Understanding,通用对话理解模型)覆盖了包括**检索式聊天系统**中context-response matching任务和**任务完成型对话系统**中**意图识别**,**槽位解析**,**状态追踪**等常见对话系统任务,在6项国际公开数据集中都获得了最佳效果。
2) knowledge-driven dialogue:百度开源的知识驱动的开放领域对话数据集,发表于ACL2019。
3)ADEM(Auto Dialogue Evaluation Model):对话自动评估模型,可用于自动评估不同对话生成模型的回复质量。 | -| **机器翻译** | [PaddleMT](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/PaddleMT) | 全称为Paddle Machine Translation,基于Transformer的经典机器翻译模型。 | -| **其他前沿工作** | [Research](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research) | 百度最新前沿工作开源。 | +| **中文分词**,**词性标注**,**命名实体识别**:fire: | [LAC](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/lexical_analysis) | LAC,全称为Lexical Analysis of Chinese,是百度内部广泛使用的中文处理工具,功能涵盖从中文分词,词性标注,命名实体识别等常见中文处理任务。 | +| **词向量(word2vec)** | [word2vec](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleRec/word2vec) | 提供单机多卡,多机等分布式训练中文词向量能力,支持主流词向量模型(skip-gram,cbow等),可以快速使用自定义数据训练词向量模型。 | +| **语言模型** | [Language_model](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/language_model) | 基于循环神经网络(RNN)的经典神经语言模型(neural language model)。 | +| **情感分类**:fire: | [Senta](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/sentiment_classification),[EmotionDetection](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/emotion_detection) | Senta(Sentiment Classification,简称Senta)和EmotionDetection两个项目分别提供了面向*通用场景*和*人机对话场景专用*的情感倾向性分析模型。 | +| **文本相似度计算**:fire: | [SimNet](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/similarity_net) | SimNet,又称为Similarity Net,为您提供高效可靠的文本相似度计算工具和预训练模型。 | +| **语义表示**:fire: | [PaddleLARK](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/language_representations_kit) | PaddleLARK,全称为Paddle LAngauge Representation Toolkit,集成了ELMO,BERT,ERNIE 1.0,ERNIE 2.0,XLNet等热门中英文预训练模型。 | +| **文本生成** | [PaddleTextGEN](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleTextGEN) | Paddle Text Generation为您提供了一些列经典文本生成模型案例,如vanilla seq2seq,seq2seq with attention,variational seq2seq模型等。 | +| **阅读理解** | [PaddleMRC](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleMRC) | PaddleMRC,全称为Paddle Machine Reading Comprehension,集合了百度在阅读理解领域相关的模型,工具,开源数据等一系列工作。包括DuReader (百度开源的基于真实搜索用户行为的中文大规模阅读理解数据集),KT-Net (结合知识的阅读理解模型,SQuAD以及ReCoRD曾排名第一), D-Net (预训练-微调框架,在EMNLP2019 MRQA国际阅读理解评测获得第一),等。 | +| **对话系统** | [PaddleDialogue](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleDialogue) | 包括:1)DGU(Dialogue General Understanding,通用对话理解模型)覆盖了包括**检索式聊天系统**中context-response matching任务和**任务完成型对话系统**中**意图识别**,**槽位解析**,**状态追踪**等常见对话系统任务,在6项国际公开数据集中都获得了最佳效果。
2) knowledge-driven dialogue:百度开源的知识驱动的开放领域对话数据集,发表于ACL2019。
3)ADEM(Auto Dialogue Evaluation Model):对话自动评估模型,可用于自动评估不同对话生成模型的回复质量。 | +| **机器翻译** | [PaddleMT](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleMT) | 全称为Paddle Machine Translation,基于Transformer的经典机器翻译模型。 | +| **其他前沿工作** | [Research](https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/Research) | 百度最新前沿工作开源。 |