diff --git a/.github/ISSUE_TEMPLATE/----.md b/.github/ISSUE_TEMPLATE/----.md new file mode 100644 index 0000000000000000000000000000000000000000..df3df339cdc2cbb4a53ca234da65ddbd4c0a18a0 --- /dev/null +++ b/.github/ISSUE_TEMPLATE/----.md @@ -0,0 +1,16 @@ +--- +name: 需求反馈 +about: 需求建议 +title: "[Feature]" +labels: '' +assignees: '' + +--- + +欢迎您对PaddleHub提出建议,非常感谢您对PaddleHub的贡献! +在留下您的建议时,辛苦您同步提供如下信息: +- 您想要增加什么新特性? +- 什么样的场景下需要该特性? +- 没有该特性的条件下,PaddleHub目前是否能间接满足该需求? +- 增加该特性,PaddleHub可能需要变化的部分。 +- 如果可以的话,简要描述下您的解决方案 diff --git a/.github/ISSUE_TEMPLATE/bug--.md b/.github/ISSUE_TEMPLATE/bug--.md new file mode 100644 index 0000000000000000000000000000000000000000..08deaaea5d1759af26471aae176eb132ab1e8341 --- /dev/null +++ b/.github/ISSUE_TEMPLATE/bug--.md @@ -0,0 +1,15 @@ +--- +name: BUG反馈 +about: PaddleHub Bug反馈 +title: "[BUG]" +labels: '' +assignees: '' + +--- + +欢迎您反馈PaddleHub使用问题,非常感谢您对PaddleHub的贡献! +在留下您的问题时,辛苦您同步提供如下信息: +- 版本、环境信息 +1)PaddleHub和PaddlePaddle版本:请提供您的PaddleHub和PaddlePaddle版本号,例如PaddleHub1.4.1,PaddlePaddle1.6.2 +2)系统环境:请您描述系统类型,例如Linux/Windows/MacOS/,python版本 +- 复现信息:如为报错,请给出复现环境、复现步骤 diff --git a/AUTHORS.md b/AUTHORS.md index cfe52c269ab91dc6ea467008d7cc9c680a03f88a..212eac8da7832a195f71c53fc3418c99b4157609 100644 --- a/AUTHORS.md +++ b/AUTHORS.md @@ -5,3 +5,4 @@ | sjtubinlong | Bin Long | | Steffy-zxf | Xuefei Zhang | | kinghuin | Jinxuan Qiu | +| ShenYuhan | Yuhan Shen | diff --git a/README.md b/README.md index 50a8027dba1a091abf173112cafe58f1fac3660b..a8473361b0b7c6c0049200af5fcd9b2cc69300f0 100644 --- a/README.md +++ b/README.md @@ -4,22 +4,31 @@ [![License](https://img.shields.io/badge/license-Apache%202-blue.svg)](LICENSE) [![Version](https://img.shields.io/github/release/PaddlePaddle/PaddleHub.svg)](https://github.com/PaddlePaddle/PaddleHub/releases) -PaddleHub是飞桨预训练模型管理和迁移学习工具,通过PaddleHub开发者可以使用高质量的预训练模型结合Fine-tune API快速完成迁移学习到应用部署的全流程工作。PaddleHub具有以下特性: +PaddleHub是飞桨预训练模型管理和迁移学习工具,通过PaddleHub开发者可以使用高质量的预训练模型结合Fine-tune API快速完成迁移学习到应用部署的全流程工作。其提供了飞桨生态下的高质量预训练模型,涵盖了图像分类、目标检测、词法分析、语义模型、情感分析、视频分类、图像生成、图像分割、文本审核、关键点检测等主流模型。更多模型详情请查看官网:https://www.paddlepaddle.org.cn/hub -* 便捷获取飞桨生态下的高质量预训练模型,涵盖了图像分类、目标检测、词法分析、语义模型、情感分析、视频分类、图像生成、图像分割、文本审核、关键点检测等主流模型。更多模型详情请查看官网:https://www.paddlepaddle.org.cn/hub -* 通过高质量预训练模型与PaddleHub Fine-tune API,只需要少量代码即可实现自然语言处理和计算机视觉场景的深度学习模型,更多Demo请参考以下链接: - [文本分类](./demo/text_classification) [序列标注](./demo/sequence_labeling) [多标签分类](./demo/multi_label_classification) [图像分类](./demo/image_classification) [检索式问答任务](./demo/qa_classification) [回归任务](./demo/regression) [句子语义相似度计算](./demo/sentence_similarity) [阅读理解任务](./demo/reading_comprehension) +基于预训练模型,PaddleHub支持以下功能: -* 『**模型即软件**』的设计理念,通过Python API或命令行实现快速预测,更方便地使用PaddlePaddle模型库,更多介绍请参考教程[PaddleHub命令行工具介绍](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7) -* PaddleHub提供便捷的服务化部署能力,简单一行命令即可搭建属于自己的模型的API服务,更多详情请参考教程[PaddleHub Serving一键服务化部署](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-Serving%E4%B8%80%E9%94%AE%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2)和[使用示例](./demo/serving) -* 支持AutoDL Finetuner超参优化技术, 自动搜索最优模型超参得到更好的模型效果。详情请参考[AutoDL Finetuner超参优化功能教程](./tutorial/autofinetune.md) +* **[模型即软件](#模型即软件)**,通过Python API或命令行实现快速预测,更方便地使用PaddlePaddle模型库。 + +* **[迁移学习](#迁移学习)**,用户通过Fine-tune API,只需要少量代码即可完成自然语言处理和计算机视觉场景的深度迁移学习。 + +* **[服务化部署](#服务化部署paddlehub-serving)**,简单一行命令即可搭建属于自己的模型的API服务。 + +* **[超参优化](#超参优化autodl-finetuner)**,自动搜索最优超参,得到更好的模型效果。 + + +**PaddleHub发布最新版本1.4.1** + + +

+
+

## 目录 * [安装](#%E5%AE%89%E8%A3%85) -* [快速体验](#%E5%BF%AB%E9%80%9F%E4%BD%93%E9%AA%8C) -* [教程](#%E6%95%99%E7%A8%8B) +* [特性](#特性) * [FAQ](#faq) * [用户交流群](#%E7%94%A8%E6%88%B7%E4%BA%A4%E6%B5%81%E7%BE%A4) * [更新历史](#%E6%9B%B4%E6%96%B0%E5%8E%86%E5%8F%B2) @@ -43,32 +52,36 @@ pip安装方式如下: ```shell $ pip install paddlehub ``` -2. 使用PaddleHub下载数据集、预训练模型等,要求机器可以访问外网。可以使用server_check()可以检查本地与远端PaddleHub-Server的连接状态,使用方法如下: +2. 使用PaddleHub下载数据集、预训练模型等,要求机器可以访问外网。可以使用`server_check()`可以检查本地与远端PaddleHub-Server的连接状态,使用方法如下: ```python import paddlehub paddlehub.server_check() -# 如果可以连接远端PaddleHub-Server,则显示Request Hub-Server successfully. -# 如果无法连接远端PaddleHub-Server,则显示Request Hub-Server unsuccessfully. +# 如果可以连接远端PaddleHub-Server,则显示Request Hub-Server successfully。 +# 如果无法连接远端PaddleHub-Server,则显示Request Hub-Server unsuccessfully。 ``` +## 特性 -## 快速体验 -安装成功后,执行命令[hub run](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7#run),可以快速体验PaddleHub无需代码、一键预测的命令行功能,如下三个示例: +### 模型即软件 -使用[词法分析](http://www.paddlepaddle.org.cn/hub?filter=category&value=LexicalAnalysis)模型LAC进行分词 +PaddleHub提出 **模型即软件** 的理念,通过Python API或命令行实现快速预测,更方便地使用PaddlePaddle模型库。 +安装PaddleHub成功后,执行命令[hub run](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7#run),可以快速体验PaddleHub无需代码、一键预测的命令行功能,如下三个示例: + +* 使用[词法分析](http://www.paddlepaddle.org.cn/hub?filter=category&value=LexicalAnalysis)模型LAC进行分词 ```shell $ hub run lac --input_text "今天是个好日子" [{'word': ['今天', '是', '个', '好日子'], 'tag': ['TIME', 'v', 'q', 'n']}] ``` -使用[情感分析](http://www.paddlepaddle.org.cn/hub?filter=category&value=SentimentAnalysis)模型Senta对句子进行情感预测 +* 使用[情感分析](http://www.paddlepaddle.org.cn/hub?filter=category&value=SentimentAnalysis)模型Senta对句子进行情感预测 ```shell $ hub run senta_bilstm --input_text "今天天气真好" {'text': '今天天气真好', 'sentiment_label': 1, 'sentiment_key': 'positive', 'positive_probs': 0.9798, 'negative_probs': 0.0202}] ``` -使用[目标检测](http://www.paddlepaddle.org.cn/hub?filter=category&value=ObjectDetection)模型 SSD/YOLO v3/Faster RCNN 对图片进行目标检测 +* 使用[目标检测](http://www.paddlepaddle.org.cn/hub?filter=category&value=ObjectDetection)模型 SSD/YOLO v3/Faster RCNN 对图片进行目标检测 + ```shell $ wget https://paddlehub.bj.bcebos.com/resources/test_object_detection.jpg $ hub run ssd_mobilenet_v1_pascal --input_path test_object_detection.jpg @@ -79,25 +92,36 @@ $ hub run faster_rcnn_coco2017 --input_path test_object_detection.jpg 除了上述三类模型外,PaddleHub还发布了图像分类、语义模型、视频分类、图像生成、图像分割、文本审核、关键点检测等业界主流模型,更多PaddleHub已经发布的模型,请前往 https://www.paddlepaddle.org.cn/hub 查看 -## 教程 +PaddleHub同时支持安装、卸载、查看模型信息等命令行功能,详细参见[PaddleHub命令行工具介绍](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7) + +### 迁移学习 + +迁移学习(Transfer Learning)通俗来讲,就是运用已有的知识来学习新的知识,核心是找到已有知识和新知识之间的相似性。PaddleHub提供了Fine-tune API,只需要少量代码即可完成深度学习模型在自然语言处理和计算机视觉场景下的迁移学习。 + +* 示例合集 + +PaddleHub提供了使用Finetune-API和预训练模型完成[文本分类](./demo/text_classification)、[序列标注](./demo/sequence_labeling)、[多标签分类](./demo/multi_label_classification)、[图像分类](./demo/image_classification)、[检索式问答任务](./demo/qa_classification)、[回归任务](./demo/regression)、[句子语义相似度计算](./demo/sentence_similarity)、[阅读理解任务](./demo/reading_comprehension)等迁移任务的使用示例,详细参见[demo](./demo)。 + +* 场景化使用 -我们在AI Studio上提供了IPython NoteBook形式的demo,您可以直接在平台上在线体验,链接如下: +PaddleHub在AI Studio上提供了IPython NoteBook形式的demo。用户可以直接在平台上在线体验,链接如下: |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| +**NOTE:** [`飞桨PaddleHub`](https://aistudio.baidu.com/aistudio/personalcenter/thirdview/79927)是PaddleHub的官方账号。 -同时,关于PaddleHub更多信息参考: +关于PaddleHub快捷完成迁移学习,更多信息参考: [Fine-tune API](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-Finetune-API) @@ -105,33 +129,58 @@ $ hub run faster_rcnn_coco2017 --input_path test_object_detection.jpg [实现自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task) -[PaddleHub Serving一键服务化部署](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-Serving%E4%B8%80%E9%94%AE%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2) +[ULMFiT优化策略](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.3/tutorial/strategy_exp.md) + +### 服务化部署PaddleHub Serving + +PaddleHub提供便捷的服务化部署能力,简单一行命令即可实现模型部署上线以对外提供服务。 + +PaddleHub Serving启动方式有两种: + +* 命令行方式: + +```shell +$ hub serving start --modules [Module1==Version1, Module2==Version2, ...] +``` + +其中选项参数`--modules/-m`表示待部署模型。 + +* 配置文件方式: + +```shell +$ hub serving start --config config.json +``` + +config.json文件包含待部署模型信息等, + +关于PaddleHub Serving详细信息参考[PaddleHub Serving一键服务化部署](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-Serving%E4%B8%80%E9%94%AE%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2)。 -[自动优化超参AutoDL Finetuner使用教程](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.3/tutorial/autofinetune.md) +### 超参优化AutoDL Finetuner -[迁移学习与ULMFiT微调策略](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.3/tutorial/strategy_exp.md) +深度学习模型往往包含许多的超参数,而这些超参数的取值对模型性能起着至关重要的作用。因为模型参数空间大,目前超参调整都是通过手动,依赖人工经验或者不断尝试,且不同模型、样本数据和场景下不尽相同,所以需要大量尝试,时间成本和资源成本非常浪费。PaddleHub AutoDL Finetuner可以实现自动调整超参数,使得模型性能达到最优水平。它通过多种调优的算法来搜索最优超参。 +AutoDL Finetuner详细信息参见[PaddleHub超参优化](./tutorial/autofinetune.md) ## FAQ -**Q:** 利用PaddleHub Fine-tune如何适配自定义数据集 +**Q:** 利用PaddleHub Fine-tune如何适配自定义数据集? -**A:** 参考[PaddleHub适配自定义数据集完成Fine-tune](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) +**A:** 参考[PaddleHub适配自定义数据集完成Fine-tune](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune)。 -**Q:** 使用PaddleHub时,无法下载预置数据集、Module的等现象 +**Q:** 使用PaddleHub时,无法下载预置数据集、Module的等现象。 **A:** 下载数据集、module等,PaddleHub要求机器可以访问外网。可以使用server_check()可以检查本地与远端PaddleHub-Server的连接状态,使用方法如下: ```python import paddlehub paddlehub.server_check() -# 如果可以连接远端PaddleHub-Server,则显示Request Hub-Server successfully. -# 如果无法连接远端PaddleHub-Server,则显示Request Hub-Server unsuccessfully. +# 如果可以连接远端PaddleHub-Server,则显示Request Hub-Server successfully。 +# 如果无法连接远端PaddleHub-Server,则显示Request Hub-Server unsuccessfully。 ``` -**Q:** 利用PaddleHub ernie/bert进行Fine-tune时,运行出错并提示`paddle.fluid.core_avx.EnforceNotMet: Input ShapeTensor cannot be found in Op reshape2`等信息 +**Q:** 利用PaddleHub ernie/bert进行Fine-tune时,运行出错并提示`paddle.fluid.core_avx.EnforceNotMet: Input ShapeTensor cannot be found in Op reshape2`等信息。 **A:** 因为ernie/bert module的创建时和此时运行环境中PaddlePaddle版本不对应。可以将PaddlePaddle和PaddleHub升级至最新版本,同时将ernie卸载。 ```shell @@ -146,7 +195,7 @@ $ hub uninstall ernie **更多问题** 当安装或者使用遇到问题时,可以通过[FAQ](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-FAQ)查找解决方案。 -如果在FAQ中没有找到解决方案,欢迎您将问题和bug报告以[Github Issues](https://github.com/PaddlePaddle/PaddleHub/issues)的形式提交给我们,我们会第一时间进行跟进 +如果在FAQ中没有找到解决方案,欢迎您将问题和bug报告以[Github Issues](https://github.com/PaddlePaddle/PaddleHub/issues)的形式提交给我们,我们会第一时间进行跟进。 ## 用户交流群 diff --git a/RELEASE.md b/RELEASE.md index 690dd223accb9933da73e05bef970ee98ec78b94..dc251f1b9b51e146223a87a05de01f445e6a9f35 100644 --- a/RELEASE.md +++ b/RELEASE.md @@ -69,7 +69,7 @@ # `v1.0.0` * 全新发布PaddleHub官网,易用性全面提升 - * 新增网站 http://hub.paddlepaddle.org.cn 包含PaddlePaddle生态的预训练模型使用介绍 + * 新增网站 https://www.paddlepaddle.org.cn/hub 包含PaddlePaddle生态的预训练模型使用介绍 * 迁移学习Demo接入AI Studio与AI Book,无需安装即可快速体验 * 新增29个预训练模型,覆盖文本、图像、视频三大领域;目前官方提供40个预训练模型 diff --git a/demo/README.md b/demo/README.md index 97eeecd7331232bd82a65ce44857cf8f50f2c32c..b220ac7de6707b97f37d3e35e99ef56d1f5702c7 100644 --- a/demo/README.md +++ b/demo/README.md @@ -2,7 +2,7 @@ 目前PaddleHub有以下任务示例: -* [图像分类](./image-classification) +* [图像分类](./image_classification) 该样例展示了PaddleHub如何将ResNet50、ResNet101、ResNet152、MobileNet、NasNet以及PNasNet作为预训练模型在Flowers、DogCat、Indoor67、Food101、StanfordDogs等数据集上进行图像分类的FineTune和预测。 * [中文词法分析](./lac) @@ -11,22 +11,22 @@ * [情感分析](./senta) 该样例展示了PaddleHub如何利用中文情感分析模型Senta进行FineTune和预测。 -* [序列标注](./sequence-labeling) +* [序列标注](./sequence_labeling) 该样例展示了PaddleHub如何将ERNIE/BERT等Transformer类模型作为预训练模型在MSRA_NER数据集上完成序列标注的FineTune和预测。 * [目标检测](./ssd) 该样例展示了PaddleHub如何将SSD作为预训练模型在PascalVOC数据集上完成目标检测的预测。 -* [文本分类](./text-classification) +* [文本分类](./text_classification) 该样例展示了PaddleHub如何将ERNIE/BERT等Transformer类模型作为预训练模型在GLUE、ChnSentiCorp等数据集上完成文本分类的FineTune和预测。 -* [多标签分类](./multi-label-classification) +* [多标签分类](./multi_label_classification) 该样例展示了PaddleHub如何将BERT作为预训练模型在Toxic数据集上完成多标签分类的FineTune和预测。 * [回归任务](./regression) 该样例展示了PaddleHub如何将BERT作为预训练模型在GLUE-STSB数据集上完成回归任务的FineTune和预测。 -* [阅读理解](./reading-comprehension) +* [阅读理解](./reading_comprehension) 该样例展示了PaddleHub如何将BERT作为预训练模型在SQAD数据集上完成阅读理解的FineTune和预测。 * [检索式问答任务](./qa_classfication) @@ -38,30 +38,30 @@ * [超参优化AutoDL Finetuner使用](./autofinetune) 该样例展示了PaddleHub超参优化AutoDL Finetuner如何使用,给出了自动搜素图像分类/文本分类任务的较佳超参数示例。 -* [服务化部署PaddleHub Serving使用](./serving) - 该样例文件夹下展示了服务化部署PaddleHub Serving如何使用,将PaddleHub支持的可预测Module如何服务化部署。 +* [服务化部署Hub Serving使用](./serving) + 该样例文件夹下展示了服务化部署Hub Serving如何使用,将PaddleHub支持的可预测Module如何服务化部署。 **NOTE:** 以上任务示例均是利用PaddleHub提供的数据集,若您想在自定义数据集上完成相应任务,请查看[PaddleHub适配自定义数据完成FineTune](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) -## 快速体验 +## 在线体验 我们在AI Studio上提供了IPython NoteBook形式的demo,您可以直接在平台上在线体验,链接如下: |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../tutorial/autofinetune.md) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../tutorial/autofinetune.md)。 diff --git a/demo/autofinetune/README.md b/demo/autofinetune/README.md deleted file mode 100644 index 75caf01984f5d6bd810cd7d431bf4a1e18ffdaf7..0000000000000000000000000000000000000000 --- a/demo/autofinetune/README.md +++ /dev/null @@ -1,28 +0,0 @@ -# PaddleHub超参优化——图像分类 - -**确认安装PaddleHub版本在1.3.0以上, 同时PaddleHub AutoDL Finetuner功能要求至少有一张GPU显卡可用。** - -本示例展示如何利用PaddleHub超参优化AutoDL Finetuner,得到一个效果较佳的超参数组合 - -使用PaddleHub AutoDL Finetuner需要准备两个指定格式的文件:待优化的超参数信息yaml文件hparam.yaml和需要Fine-tune的python脚本train.py - -以Fine-tune图像分类任务为例, 其中: - -## hparam.yaml - -hparam给出待搜索的超参名字、类型(int或者float)、搜索范围等信息。 -通过这些信息构建了一个超参空间,PaddleHub将在这个空间内进行超参数的搜索,将搜索到的超参传入train.py获得评估效果,根据评估效果自动调整超参搜索方向,直到满足搜索次数。 - -本示例中待优化超参数为learning_rate和batch_size。 - - -## img_cls.py - -以mobilenet为预训练模型,在flowers数据集上进行Fine-tune。 - -## 如何开始超参优化 - -在完成安装PaddlePaddle与PaddleHub后,通过执行脚本`sh run_autofinetune.sh`即可开始使用超参优化功能。 - - -`NOTE`: 关于PaddleHub超参优化详情参考[教程](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/tutorial/autofinetune.md) diff --git a/demo/autofinetune_image_classification/README.md b/demo/autofinetune_image_classification/README.md new file mode 100644 index 0000000000000000000000000000000000000000..664a4ed46905a4cbc2c9fc0a254660cff5f72b1d --- /dev/null +++ b/demo/autofinetune_image_classification/README.md @@ -0,0 +1,66 @@ +# PaddleHub超参优化——图像分类 + +**确认安装PaddleHub版本在1.3.0以上, 同时PaddleHub AutoDL Finetuner功能要求至少有一张GPU显卡可用。** + +本示例展示如何利用PaddleHub超参优化AutoDL Finetuner,得到一个效果较佳的超参数组合。 + +每次执行AutoDL Finetuner,用户只需要定义搜索空间,改动几行代码,就能利用PaddleHub搜索最好的超参组合。 只需要两步即可完成: + +* 定义搜索空间:AutoDL Finetuner会根据搜索空间来取样生成参数和网络架构。搜索空间通过YAML文件来定义。 + +* 改动模型代码:需要首先定义参数组,并更新模型代码。 + +## Step1:定义搜索空间 + +AutoDL Finetuner会根据搜索空间来取样生成参数和网络架构。搜索空间通过YAML文件来定义。 +要定义搜索空间,需要定义变量名称、类型及其搜索范围。通过这些信息构建了一个超参空间, +PaddleHub将在这个空间内进行超参数的搜索,将搜索到的超参传入train.py获得评估效果,根据评估效果自动调整超参搜索方向,直到满足搜索次数。 + +以Fine-tune图像分类任务为例, 以下是待优化超参数的yaml文件hparam.yaml,包含需要搜素的超参名字、类型、范围等信息。目前参数搜索类型只支持float和int类型。 +``` +param_list: +- name : learning_rate + init_value : 0.001 + type : float + lower_than : 0.05 + greater_than : 0.00005 +- name : batch_size + init_value : 12 + type : int + lower_than : 20 + greater_than : 10 +``` + +## Step2:改动模型代码 + +img_cls.py以mobilenet为预训练模型,在flowers数据集上进行Fine-tune。PaddleHub如何完成Finetune可以参考[图像分类迁移学习示例](../image_classification) + +* import paddlehub + + 在img_cls.py加上`import paddlehub as hub` + +* 从AutoDL Finetuner获得参数值 + + 1. img_cls.py的选项参数须包含待优化超参数,需要将超参以argparser的方式写在其中,待搜索超参数选项名字和yaml文件中的超参数名字保持一致。 + + 2. img_cls.py须包含选项参数saved_params_dir,优化后的参数将会保存到该路径下。 + + 3. 超参评估策略选择PopulationBased时,img_cls.py须包含选项参数model_path,自动从model_path指定的路径恢复模型 + +* 返回配置的最终效果 + + img_cls.py须反馈模型的评价效果(建议使用验证集或者测试集上的评价效果),通过调用`report_final_result`接口反馈,如 + + ```python + hub.report_final_result(eval_avg_score["acc"]) + ``` + + **NOTE:** 输出的评价效果取值范围应为`(-∞, 1]`,取值越高,表示效果越好。 + + +## 启动AutoDL Finetuner + +在完成安装PaddlePaddle与PaddleHub后,通过执行脚本`sh run_autofinetune.sh`即可开始使用超参优化功能。 + + +**NOTE:** 关于PaddleHub超参优化详情参考[教程](../../tutorial/autofinetune.md)。 diff --git a/demo/autofinetune/hparam.yaml b/demo/autofinetune_image_classification/hparam.yaml similarity index 100% rename from demo/autofinetune/hparam.yaml rename to demo/autofinetune_image_classification/hparam.yaml diff --git a/demo/autofinetune/img_cls.py b/demo/autofinetune_image_classification/img_cls.py similarity index 99% rename from demo/autofinetune/img_cls.py rename to demo/autofinetune_image_classification/img_cls.py index 2d19f8c7df4e03ad77f5d2830b46e8c32b25b5ed..c1194de2f52877b23924a91610e50284c1e3734a 100644 --- a/demo/autofinetune/img_cls.py +++ b/demo/autofinetune_image_classification/img_cls.py @@ -4,7 +4,6 @@ import os import ast import shutil -import paddle.fluid as fluid import paddlehub as hub from paddlehub.common.logger import logger @@ -58,7 +57,6 @@ def is_path_valid(path): def finetune(args): - # Load Paddlehub pretrained model, default as mobilenet module = hub.Module(name=args.module) input_dict, output_dict, program = module.context(trainable=True) diff --git a/demo/autofinetune/run_autofinetune.sh b/demo/autofinetune_image_classification/run_autofinetune.sh similarity index 100% rename from demo/autofinetune/run_autofinetune.sh rename to demo/autofinetune_image_classification/run_autofinetune.sh diff --git a/demo/autofinetune_text_classification/README.md b/demo/autofinetune_text_classification/README.md new file mode 100644 index 0000000000000000000000000000000000000000..4797f479ee04ea542fa4b22c410d32b46d1ce11a --- /dev/null +++ b/demo/autofinetune_text_classification/README.md @@ -0,0 +1,76 @@ +# PaddleHub超参优化——文本分类 + +**确认安装PaddleHub版本在1.3.0以上, 同时PaddleHub AutoDL Finetuner功能要求至少有一张GPU显卡可用。** + +本示例展示如何利用PaddleHub超参优化AutoDL Finetuner,得到一个效果较佳的超参数组合。 + +每次执行AutoDL Finetuner,用户只需要定义搜索空间,改动几行代码,就能利用PaddleHub搜索最好的超参组合。 只需要两步即可完成: + +* 定义搜索空间:AutoDL Finetuner会根据搜索空间来取样生成参数和网络架构。搜索空间通过YAML文件来定义。 + +* 改动模型代码:需要首先定义参数组,并更新模型代码。 + +## Step1:定义搜索空间 + +AutoDL Finetuner会根据搜索空间来取样生成参数和网络架构。搜索空间通过YAML文件来定义。 +要定义搜索空间,需要定义变量名称、类型及其搜索范围。通过这些信息构建了一个超参空间, +PaddleHub将在这个空间内进行超参数的搜索,将搜索到的超参传入train.py获得评估效果,根据评估效果自动调整超参搜索方向,直到满足搜索次数。 + +以Fine-tune文本分类任务为例, 以下是待优化超参数的yaml文件hparam.yaml,包含需要搜素的超参名字、类型、范围等信息。目前参数搜索类型只支持float和int类型。 +``` +param_list: +- name : learning_rate + init_value : 0.001 + type : float + lower_than : 0.05 + greater_than : 0.000005 +- name : weight_decay + init_value : 0.1 + type : float + lower_than : 1 + greater_than : 0.0 +- name : batch_size + init_value : 32 + type : int + lower_than : 40 + greater_than : 30 +- name : warmup_prop + init_value : 0.1 + type : float + lower_than : 0.2 + greater_than : 0.0 +``` + +## Step2:改动模型代码 + +text_cls.py以ernie为预训练模型,在ChnSentiCorp数据集上进行Fine-tune。PaddleHub如何完成Finetune可以参考[文本分类迁移学习示例](../text_classification) + +* import paddlehub + + 在text_cls.py加上`import paddlehub as hub` + +* 从AutoDL Finetuner获得参数值 + + 1. text_cls.py的选项参数须包含待优化超参数,需要将超参以argparser的方式写在其中,待搜索超参数选项名字和yaml文件中的超参数名字保持一致。 + + 2. text_cls.py须包含选项参数saved_params_dir,优化后的参数将会保存到该路径下。 + + 3. 超参评估策略选择PopulationBased时,text_cls.py须包含选项参数model_path,自动从model_path指定的路径恢复模型 + +* 返回配置的最终效果 + + text_cls.py须反馈模型的评价效果(建议使用验证集或者测试集上的评价效果),通过调用`report_final_result`接口反馈,如 + + ```python + hub.report_final_result(eval_avg_score["acc"]) + ``` + + **NOTE:** 输出的评价效果取值范围应为`(-∞, 1]`,取值越高,表示效果越好。 + + +## 启动AutoDL Finetuner + +在完成安装PaddlePaddle与PaddleHub后,通过执行脚本`sh run_autofinetune.sh`即可开始使用超参优化功能。 + + +**NOTE:** 关于PaddleHub超参优化详情参考[教程](../../tutorial/autofinetune.md) diff --git a/demo/autofinetune_text_classification/hparam.yaml b/demo/autofinetune_text_classification/hparam.yaml new file mode 100644 index 0000000000000000000000000000000000000000..38ad992a2416e55acf2ed36147ebf4b501bb7f54 --- /dev/null +++ b/demo/autofinetune_text_classification/hparam.yaml @@ -0,0 +1,21 @@ +param_list: +- name : learning_rate + init_value : 0.001 + type : float + lower_than : 0.05 + greater_than : 0.000005 +- name : weight_decay + init_value : 0.1 + type : float + lower_than : 1 + greater_than : 0.0 +- name : batch_size + init_value : 32 + type : int + lower_than : 40 + greater_than : 30 +- name : warmup_prop + init_value : 0.1 + type : float + lower_than : 0.2 + greater_than : 0.0 diff --git a/demo/autofinetune_text_classification/run_autofinetune.sh b/demo/autofinetune_text_classification/run_autofinetune.sh new file mode 100644 index 0000000000000000000000000000000000000000..d418d838bd07dcb75e34d134d54aa6cda0d8e287 --- /dev/null +++ b/demo/autofinetune_text_classification/run_autofinetune.sh @@ -0,0 +1,10 @@ +OUTPUT=result + +hub autofinetune text_cls.py \ + --param_file=hparam.yaml \ + --gpu=0 \ + --popsize=15 \ + --round=10 \ + --output_dir=${OUTPUT} \ + --evaluator=fulltrail \ + --tuning_strategy=pshe2 diff --git a/tutorial/autofinetune-nlp.md b/demo/autofinetune_text_classification/text_cls.py similarity index 66% rename from tutorial/autofinetune-nlp.md rename to demo/autofinetune_text_classification/text_cls.py index ede63c5b5cdbc76c4f232087df157c255204755e..a08ef35b9468dc7ca76e8b4b9f570c62cc96c58c 100644 --- a/tutorial/autofinetune-nlp.md +++ b/demo/autofinetune_text_classification/text_cls.py @@ -1,45 +1,11 @@ -# PaddleHub 超参优化(AutoDL Finetuner)——NLP情感分类任务 - -使用PaddleHub AutoDL Finetuner需要准备两个指定格式的文件:待优化的超参数信息yaml文件hparam.yaml和需要Fine-tune的python脚本train.py - -以Fine-tune中文情感分类任务为例,展示如何利用PaddleHub AutoDL Finetuner进行超参优化。 - -以下是待优化超参数的yaml文件hparam.yaml,包含需要搜索的超参名字、类型、范围等信息。其中类型只支持float和int -``` -param_list: -- name : learning_rate - init_value : 0.001 - type : float - lower_than : 0.05 - greater_than : 0.000005 -- name : weight_decay - init_value : 0.1 - type : float - lower_than : 1 - greater_than : 0.0 -- name : batch_size - init_value : 32 - type : int - lower_than : 40 - greater_than : 30 -- name : warmup_prop - init_value : 0.1 - type : float - lower_than : 0.2 - greater_than : 0.0 -``` - -以下是中文情感分类的`train.py` - -```python from __future__ import absolute_import from __future__ import division from __future__ import print_function import argparse import ast +import shutil -import paddle.fluid as fluid import paddlehub as hub import os from paddlehub.common.logger import logger @@ -49,16 +15,32 @@ parser.add_argument("--epochs", type=int, default=3, help="epochs.") # the name of hyperparameters to be searched should keep with hparam.py parser.add_argument("--batch_size", type=int, default=32, help="batch_size.") -parser.add_argument("--learning_rate", type=float, default=5e-5, help="learning_rate.") -parser.add_argument("--warmup_prop", type=float, default=0.1, help="warmup_prop.") -parser.add_argument("--weight_decay", type=float, default=0.01, help="weight_decay.") - -parser.add_argument("--max_seq_len", type=int, default=128, help="Number of words of the longest seqence.") -parser.add_argument("--checkpoint_dir", type=str, default=None, help="Directory to model checkpoint") +parser.add_argument( + "--learning_rate", type=float, default=5e-5, help="learning_rate.") +parser.add_argument( + "--warmup_prop", type=float, default=0.1, help="warmup_prop.") +parser.add_argument( + "--weight_decay", type=float, default=0.01, help="weight_decay.") + +parser.add_argument( + "--max_seq_len", + type=int, + default=128, + help="Number of words of the longest seqence.") +parser.add_argument( + "--checkpoint_dir", + type=str, + default=None, + help="Directory to model checkpoint") # saved_params_dir and model_path are needed by auto finetune -parser.add_argument("--saved_params_dir", type=str, default="", help="Directory for saving model during ") -parser.add_argument("--model_path", type=str, default="", help="load model path") +parser.add_argument( + "--saved_params_dir", + type=str, + default="", + help="Directory for saving model during ") +parser.add_argument( + "--model_path", type=str, default="", help="load model path") args = parser.parse_args() @@ -71,6 +53,7 @@ def is_path_valid(path): os.mkdir(dirname) return True + if __name__ == '__main__': # Load Paddlehub ERNIE pretrained model module = hub.Module(name="ernie") @@ -133,7 +116,8 @@ if __name__ == '__main__': cls_task.finetune() run_states = cls_task.eval() - eval_avg_score, eval_avg_loss, eval_run_speed = cls_task._calculate_metrics(run_states) + eval_avg_score, eval_avg_loss, eval_run_speed = cls_task._calculate_metrics( + run_states) # Move ckpt/best_model to the defined saved parameters directory best_model_dir = os.path.join(config.checkpoint_dir, "best_model") @@ -143,4 +127,3 @@ if __name__ == '__main__': # acc on dev will be used by auto finetune hub.report_final_result(eval_avg_score["acc"]) -``` diff --git a/demo/image_classification/README.md b/demo/image_classification/README.md index 9644699c12b7282f228bcb559db203c56664c505..3e7ef91d7a8ee386e7a25bf0990bd40465d13dec 100644 --- a/demo/image_classification/README.md +++ b/demo/image_classification/README.md @@ -9,13 +9,13 @@ 其中脚本参数说明如下: ```shell ---batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数。默认为16 ---num_epoch: Fine-tune迭代的轮数。默认为1 ---module: 使用哪个Module作为Fine-tune的特征提取器,脚本支持{resnet50/resnet101/resnet152/mobilenet/nasnet/pnasnet}等模型。默认为resnet50 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型。默认为paddlehub_finetune_ckpt ---dataset: 使用什么数据集进行Fine-tune, 脚本支持分别是{flowers/dogcat/stanforddogs/indoor67/food101}。默认为flowers ---use_gpu: 是否使用GPU进行训练,如果机器支持GPU且安装了GPU版本的PaddlePaddle,我们建议您打开这个开关。默认关闭 ---use_data_parallel: 是否使用数据并行,打开该开关时,会将数据分散到不同的卡上进行训练(CPU下会分布到不同线程)。默认打开 +--batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数。默认为16; +--num_epoch: Fine-tune迭代的轮数。默认为1; +--module: 使用哪个Module作为Fine-tune的特征提取器,脚本支持{resnet50/resnet101/resnet152/mobilenet/nasnet/pnasnet}等模型。默认为resnet50; +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型。默认为paddlehub_finetune_ckpt; +--dataset: 使用什么数据集进行Fine-tune, 脚本支持分别是{flowers/dogcat/stanforddogs/indoor67/food101}。默认为flowers; +--use_gpu: 是否使用GPU进行训练,如果机器支持GPU且安装了GPU版本的PaddlePaddle,我们建议您打开这个开关。默认关闭; +--use_data_parallel: 是否使用数据并行,打开该开关时,会将数据分散到不同的卡上进行训练(CPU下会分布到不同线程)。默认打开; ``` ## 代码步骤 @@ -58,15 +58,15 @@ data_reader = hub.reader.ImageClassificationReader( | Indoor67 | hub.dataset.Indoor67() | | Food101 | hub.dataset.Food101() | -`hub.dataset.Flowers()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录 +`hub.dataset.Flowers()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录。 -`module.get_expected_image_width()` 和 `module.get_expected_image_height()`会返回预训练模型对应的图片尺寸 +`module.get_expected_image_width()` 和 `module.get_expected_image_height()`会返回预训练模型对应的图片尺寸。 -`module.module.get_pretrained_images_mean()` 和 `module.get_pretrained_images_std()`会返回预训练模型对应的图片均值和方差 +`module.module.get_pretrained_images_mean()` 和 `module.get_pretrained_images_std()`会返回预训练模型对应的图片均值和方差。 #### 自定义数据集 -如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) +如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune)。 ### Step3:选择优化策略和运行配置 @@ -81,27 +81,27 @@ config = hub.RunConfig(use_cuda=True, use_data_parallel=True, num_epoch=3, batch #### 优化策略 -PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy) +PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy)。 其中`DefaultFinetuneStrategy`: -* `learning_rate`: 全局学习率。默认为1e-4 -* `optimizer_name`: 优化器名称。默认adam -* `regularization_coeff`: 正则化的λ参数。默认为1e-3 +* `learning_rate`: 全局学习率。默认为1e-4; +* `optimizer_name`: 优化器名称。默认adam; +* `regularization_coeff`: 正则化的λ参数。默认为1e-3; #### 运行配置 `RunConfig` 主要控制Fine-tune的训练,包含以下可控制的参数: -* `log_interval`: 进度日志打印间隔,默认每10个step打印一次 -* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集 -* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型 -* `use_cuda`: 是否使用GPU训练,默认为False -* `use_pyreader`: 是否使用pyreader,默认False -* `use_data_parallel`: 是否使用并行计算,默认True。打开该功能依赖nccl库 -* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成 -* `num_epoch`: Fine-tune的轮数 -* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size -* `strategy`: Fine-tune优化策略 +* `log_interval`: 进度日志打印间隔,默认每10个step打印一次; +* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集; +* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型; +* `use_cuda`: 是否使用GPU训练,默认为False; +* `use_pyreader`: 是否使用pyreader,默认False; +* `use_data_parallel`: 是否使用并行计算,默认True。打开该功能依赖nccl库; +* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成; +* `num_epoch`: Fine-tune的轮数; +* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size; +* `strategy`: Fine-tune优化策略; ### Step4: 构建网络并创建分类迁移任务进行Fine-tune @@ -121,11 +121,11 @@ task.finetune_and_eval() **NOTE:** 1. `output_dict["feature_map"]`返回了resnet/mobilenet等模型对应的feature_map,可以用于图片的特征表达。 2. `feed_list`中的inputs参数指明了resnet/mobilenet等模型的输入tensor的顺序,与ImageClassifierTask返回的结果一致。 -3. `hub.ImageClassifierTask`通过输入特征,label与迁移的类别数,可以生成适用于图像分类的迁移任务`ImageClassifierTask` +3. `hub.ImageClassifierTask`通过输入特征,label与迁移的类别数,可以生成适用于图像分类的迁移任务`ImageClassifierTask`。 #### 自定义迁移任务 -如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task) +如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task)。 ## 可视化 @@ -133,7 +133,7 @@ Fine-tune API训练过程中会自动对关键训练指标进行打点,启动 ```bash $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_NUM} ``` -其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况 +其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况。 ## 模型预测 @@ -142,33 +142,34 @@ $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_N 我们使用该模型来进行预测。predict.py脚本支持的参数如下: ```shell ---module: 使用哪个Module作为Fine-tune的特征提取器,脚本支持{resnet50/resnet101/resnet152/mobilenet/nasnet/pnasnet}等模型。默认为resnet50 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型。默认为paddlehub_finetune_ckpt ---dataset: 使用什么数据集进行Fine-tune, 脚本支持分别是{flowers/dogcat}。默认为flowers ---use_gpu: 使用使用GPU进行训练,如果本机支持GPU且安装了GPU版本的PaddlePaddle,我们建议您打开这个开关。默认关闭 ---use_pyreader: 是否使用pyreader进行数据喂入。默认关闭 +--module: 使用哪个Module作为Fine-tune的特征提取器,脚本支持{resnet50/resnet101/resnet152/mobilenet/nasnet/pnasnet}等模型。默认为resnet50; +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型。默认为paddlehub_finetune_ckpt; +--dataset: 使用什么数据集进行Fine-tune, 脚本支持分别是{flowers/dogcat}。默认为flowers; +--use_gpu: 使用使用GPU进行训练,如果本机支持GPU且安装了GPU版本的PaddlePaddle,我们建议您打开这个开关。默认关闭; +--use_pyreader: 是否使用pyreader进行数据喂入。默认关闭; ``` -`注意`:进行预测时,所选择的module,checkpoint_dir,dataset必须和Fine-tune所用的一样 +**NOTE:** 进行预测时,所选择的module,checkpoint_dir,dataset必须和Fine-tune所用的一样。 -参数配置正确后,请执行脚本`sh run_predict.sh`,即可看到以下图片分类预测结果 -如需了解更多预测步骤,请参考`predict.py` +参数配置正确后,请执行脚本`sh run_predict.sh`,即可看到以下图片分类预测结果。 +如需了解更多预测步骤,请参考`predict.py`。 我们在AI Studio上提供了IPython NoteBook形式的demo,您可以直接在平台上在线体验,链接如下: |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| + ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md) 和[使用样例](../autofinetune) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md)。 diff --git a/demo/lac/README.md b/demo/lac/README.md index c937d4513dc630693cc79d2e136d5d2134f84791..4548bc88a999c0925865105867adafb9e4b39725 100644 --- a/demo/lac/README.md +++ b/demo/lac/README.md @@ -3,13 +3,13 @@ 本示例展示如何使用LAC Module进行预测。 -LAC是中文词法分析模型,可以用于进行中文句子的分词/词性标注/命名实体识别等功能,关于模型的细节参见[模型介绍](https://www.paddlepaddle.org.cn/hubdetail?name=lac&en_category=LexicalAnalysis) +LAC是中文词法分析模型,可以用于进行中文句子的分词/词性标注/命名实体识别等功能,关于模型的细节参见[模型介绍](https://www.paddlepaddle.org.cn/hubdetail?name=lac&en_category=LexicalAnalysis)。 ## 命令行方式预测 -`cli_demo.sh`给出了使用命令行接口(Command Line Interface)调用Module预测的示例脚本 -通过以下命令试验下效果 +`cli_demo.sh`给出了使用命令行接口(Command Line Interface)调用Module预测的示例脚本, +通过以下命令试验下效果。 ```shell $ hub run lac --input_text "今天是个好日子" @@ -32,14 +32,14 @@ user.dict为用户自定义词典,可以不指定,当指定自定义词典 **NOTE:** -* 该PaddleHub Module使用词典干预功能时,依赖于第三方库pyahocorasick,请自行安装 -* 请不要直接复制示例文本使用,复制后的格式可能存在问题 +* 该PaddleHub Module使用词典干预功能时,依赖于第三方库pyahocorasick,请自行安装; +* 请不要直接复制示例文本使用,复制后的格式可能存在问题; ## 通过Python API预测 -`lac_demo.py`给出了使用python API调用PaddleHub LAC Module预测的示例代码 -通过以下命令试验下效果 +`lac_demo.py`给出了使用python API调用PaddleHub LAC Module预测的示例代码, +通过以下命令试验下效果。 ```shell python lac_demo.py diff --git a/demo/multi_label_classification/README.md b/demo/multi_label_classification/README.md index 55813acdd210309297481423382b99469ab53bc5..f951efdef324e6f5cf0daba3d72e24938f04a2b4 100644 --- a/demo/multi_label_classification/README.md +++ b/demo/multi_label_classification/README.md @@ -20,21 +20,21 @@ ```bash # 模型相关 ---batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数 ---use_gpu: 是否使用GPU进行Fine-Tune,默认为False ---learning_rate: Fine-tune的最大学习率 ---weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01 ---warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0 ---num_epoch: Fine-tune迭代的轮数 ---max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数 +--batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数; +--use_gpu: 是否使用GPU进行Fine-Tune,默认为False; +--learning_rate: Fine-tune的最大学习率; +--weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01; +--warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0; +--num_epoch: Fine-tune迭代的轮数; +--max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数; # 任务相关 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型 +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型; ``` ## 代码步骤 -使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤 +使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤: ### Step1: 加载预训练模型 @@ -75,15 +75,15 @@ reader = hub.reader.MultiLabelClassifyReader( max_seq_len=128) ``` -其中数据集的准备代码可以参考 [toxic.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/toxic.py) +其中数据集的准备代码可以参考[toxic.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/toxic.py)。 -`hub.dataset.Toxic()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录 +`hub.dataset.Toxic()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录; -`module.get_vocab_path()` 会返回预训练模型对应的词表 +`module.get_vocab_path()` 会返回预训练模型对应的词表; -`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致 +`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致; -MultiLabelClassifyReader中的`data_generator`会自动按照模型对应词表对数据进行tokenize,以迭代器的方式返回BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`. +MultiLabelClassifyReader中的`data_generator`会自动按照模型对应词表对数据进行tokenize,以迭代器的方式返回BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`; **NOTE**: Reader返回tensor的顺序是固定的,默认按照input_ids, position_ids, segment_id, input_mask这一顺序返回。 @@ -91,7 +91,7 @@ MultiLabelClassifyReader中的`data_generator`会自动按照模型对应词表 #### 自定义数据集 -如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90\) +如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90\)。 ### Step3:选择优化策略和运行配置 @@ -109,27 +109,27 @@ config = hub.RunConfig(use_cuda=True, use_data_parallel=True, use_pyreader=True, #### 优化策略 针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy` -* `learning_rate`: Fine-tune过程中的最大学习率; -* `weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; -* `warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; +* `learning_rate`: Fine-tune过程中的最大学习率; +* `weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; +* `warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; * `lr_scheduler`: 有两种策略可选(1) `linear_decay`策略学习率会在最高点后以线性方式衰减; `noam_decay`策略学习率会在最高点以多项式形式衰减; -PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy) +PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy)。 #### 运行配置 `RunConfig` 主要控制Fine-tune的训练,包含以下可控制的参数: -* `log_interval`: 进度日志打印间隔,默认每10个step打印一次 -* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集 -* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型 -* `use_cuda`: 是否使用GPU训练,默认为False -* use_pyreader: 是否使用pyreader,默认False -* use_data_parallel: 是否使用并行计算,默认False。打开该功能依赖nccl库 -* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成 -* `num_epoch`: Fine-tune的轮数 -* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size -* `enable_memory_optim`: 是否使用内存优化, 默认为True -* `strategy`: Fine-tune优化策略 +* `log_interval`: 进度日志打印间隔,默认每10个step打印一次; +* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集; +* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型; +* `use_cuda`: 是否使用GPU训练,默认为False; +* use_pyreader: 是否使用pyreader,默认False; +* use_data_parallel: 是否使用并行计算,默认False。打开该功能依赖nccl库; +* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成; +* `num_epoch`: Fine-tune的轮数; +* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size; +* `enable_memory_optim`: 是否使用内存优化, 默认为True; +* `strategy`: Fine-tune优化策略; ### Step4: 构建网络并创建分类迁移任务进行Fine-tune ```python @@ -155,33 +155,34 @@ cls_task.finetune_and_eval() **NOTE:** 1. `outputs["pooled_output"]`返回了ERNIE/BERT模型对应的[CLS]向量,可以用于句子或句对的特征表达。 2. `feed_list`中的inputs参数指名了ERNIE/BERT中的输入tensor的顺序,与MultiLabelClassifierTask返回的结果一致。 -3. `hub.MultiLabelClassifierTask`通过输入特征,label与迁移的类别数,可以生成适用于多标签分类的迁移任务`MultiLabelClassifierTask` +3. `hub.MultiLabelClassifierTask`通过输入特征,label与迁移的类别数,可以生成适用于多标签分类的迁移任务`MultiLabelClassifierTask`。 #### 自定义迁移任务 -如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task) +如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task)。 ## 可视化 -Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令 +Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令。 ```bash $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_NUM} ``` -其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况 +其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况。 ## 模型预测 通过Fine-tune完成模型训练后,在对应的ckpt目录下,会自动保存验证集上效果最好的模型。 -配置脚本参数 + +配置脚本参数: ```shell CKPT_DIR="./ckpt_toxic" python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 ``` -其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE模型的最大序列长度,*请与训练时配置的参数保持一致* +其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE模型的最大序列长度,*请与训练时配置的参数保持一致*。 参数配置正确后,请执行脚本`sh run_predict.sh`,即可看到以下文本分类预测结果, 以及最终准确率。 如需了解更多预测步骤,请参考`predict.py` @@ -190,17 +191,18 @@ python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| + ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md) 和[使用样例](../autofinetune) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md)。 diff --git a/demo/qa_classification/README.md b/demo/qa_classification/README.md index cc9c3e5dec7149accc04a10f82bd32de484f2578..ef6e41c06a853c2fd365707cdcda84eeb837a6f3 100644 --- a/demo/qa_classification/README.md +++ b/demo/qa_classification/README.md @@ -10,20 +10,20 @@ ```bash # 模型相关 ---batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数 ---learning_rate: Fine-tune的最大学习率 ---weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01 ---warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0 ---num_epoch: Fine-tune迭代的轮数 ---max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数 +--batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数; +--learning_rate: Fine-tune的最大学习率; +--weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01; +--warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0; +--num_epoch: Fine-tune迭代的轮数; +--max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数; # 任务相关 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型 +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型; ``` ## 代码步骤 -使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤 +使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤: ### Step1: 加载预训练模型 @@ -54,7 +54,7 @@ RoBERTa-wwm-ext-large, Chinese | `hub.Module(name='roberta_wwm_ext_chinese_L 更多模型请参考[PaddleHub官网](https://www.paddlepaddle.org.cn/hub?filter=hot&value=1)。 -如果想尝试BERT模型,只需要更换Module中的`name`参数即可. +如果想尝试BERT模型,只需要更换Module中的`name`参数即可。 ```python # 更换name参数即可无缝切换BERT中文模型, 代码示例如下 module = hub.Module(name="bert_chinese_L-12_H-768_A-12") @@ -69,22 +69,22 @@ reader = hub.reader.ClassifyReader( max_seq_len=128) ``` -其中数据集的准备代码可以参考 [nlpcc_dbqa.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/nlpcc_dbqa.py) +其中数据集的准备代码可以参考[nlpcc_dbqa.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/nlpcc_dbqa.py)。 -`hub.dataset.NLPCC_DBQA())` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录 +`hub.dataset.NLPCC_DBQA())` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录; -`module.get_vocab_path()` 会返回预训练模型对应的词表 +`module.get_vocab_path()` 会返回预训练模型对应的词表; -`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致 +`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致; -ClassifyReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回ERNIE/BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`. +ClassifyReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回ERNIE/BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`; **NOTE**: Reader返回tensor的顺序是固定的,默认按照input_ids, position_ids, segment_id, input_mask这一顺序返回。 #### 自定义数据集 -如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) +如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune)。 ### Step3:选择优化策略和运行配置 @@ -101,29 +101,29 @@ config = hub.RunConfig(use_cuda=True, use_data_parallel=True, use_pyreader=True, #### 优化策略 -PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy) +PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy)。 -针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy` +针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy`: -* `learning_rate`: Fine-tune过程中的最大学习率; -* `weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; -* `warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; +* `learning_rate`: Fine-tune过程中的最大学习率; +* `weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; +* `warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; * `lr_scheduler`: 有两种策略可选(1) `linear_decay`策略学习率会在最高点后以线性方式衰减; `noam_decay`策略学习率会在最高点以多项式形式衰减; #### 运行配置 -`RunConfig` 主要控制Fine-tune的训练,包含以下可控制的参数: - -* `log_interval`: 进度日志打印间隔,默认每10个step打印一次 -* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集 -* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型 -* `use_cuda`: 是否使用GPU训练,默认为False -* `use_pyreader`: 是否使用pyreader,默认False。 -* `use_data_parallel`: 是否使用并行计算,默认False。打开该功能依赖nccl库。 -* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成 -* `num_epoch`: Fine-tune的轮数 -* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size -* `enable_memory_optim`: 是否使用内存优化, 默认为True -* `strategy`: Fine-tune优化策略 +`RunConfig` 主要控制Fine-tune的训练,包含以下可控制的参数: + +* `log_interval`: 进度日志打印间隔,默认每10个step打印一次; +* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集; +* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型; +* `use_cuda`: 是否使用GPU训练,默认为False; +* `use_pyreader`: 是否使用pyreader,默认False; +* `use_data_parallel`: 是否使用并行计算,默认False。打开该功能依赖nccl库; +* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成; +* `num_epoch`: Fine-tune的轮数; +* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size; +* `enable_memory_optim`: 是否使用内存优化, 默认为True; +* `strategy`: Fine-tune优化策略; ### Step4: 构建网络并创建分类迁移任务进行Fine-tune ```python @@ -153,15 +153,15 @@ cls_task.finetune_and_eval() #### 自定义迁移任务 -如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task) +如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task)。 ## 可视化 -Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令 +Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令: ```bash $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_NUM} ``` -其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况 +其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况。 ## 模型预测 @@ -171,28 +171,27 @@ $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_N CKPT_DIR="./ckpt_qa" python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 ``` -其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE模型的最大序列长度,*请与训练时配置的参数保持一致* +其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE模型的最大序列长度,*请与训练时配置的参数保持一致*。 参数配置正确后,请执行脚本`sh run_predict.sh`,即可看到以下文本分类预测结果, 以及最终准确率。 -如需了解更多预测步骤,请参考`predict.py` - +如需了解更多预测步骤,请参考`predict.py`。 我们在AI Studio上提供了IPython NoteBook形式的demo,您可以直接在平台上在线体验,链接如下: |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md) 和[使用样例](../autofinetune) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md)。 diff --git a/demo/reading_comprehension/README.md b/demo/reading_comprehension/README.md index 2c60792dcc6e3a9f05351f0bac4757bf512f2ae0..560eaefd470c078fbe1eff832b625db9787d1744 100644 --- a/demo/reading_comprehension/README.md +++ b/demo/reading_comprehension/README.md @@ -10,21 +10,21 @@ ```bash # 模型相关 ---batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数 ---learning_rate: Fine-tune的最大学习率 ---weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01 ---warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0 ---num_epoch: Fine-tune迭代的轮数 ---max_seq_len: BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数 ---use_data_parallel: 是否使用并行计算,默认False。打开该功能依赖nccl库。 +--batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数; +--learning_rate: Fine-tune的最大学习率; +--weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01; +--warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0; +--num_epoch: Fine-tune迭代的轮数; +--max_seq_len: BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数; +--use_data_parallel: 是否使用并行计算,默认False。打开该功能依赖nccl库; # 任务相关 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型 +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型。 ``` ## 代码步骤 -使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤 +使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤: ### Step1: 加载预训练模型 @@ -55,7 +55,7 @@ RoBERTa-wwm-ext-large, Chinese | `hub.Module(name='roberta_wwm_ext_chinese_L 更多模型请参考[PaddleHub官网](https://www.paddlepaddle.org.cn/hub?filter=hot&value=1)。 -如果想尝试BERT模型,只需要更换Module中的`name`参数即可. +如果想尝试BERT模型,只需要更换Module中的`name`参数即可。 ```python # 更换name参数即可无缝切换BERT中文模型, 代码示例如下 module = hub.Module(name="bert_chinese_L-12_H-768_A-12") @@ -71,15 +71,15 @@ reader = hub.reader.ReadingComprehensionReader( max_seq_length=384) ``` -其中数据集的准备代码可以参考 [squad.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/squad.py) +其中数据集的准备代码可以参考 [squad.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/squad.py)。 -`hub.dataset.SQUAD(version_2_with_negative=False)` 会自动从网络下载数据集SQuAD v1.1并解压到用户目录下`$HOME/.paddlehub/dataset`目录;如果想选择数据集SQuAD v2.0,则只需version_2_with_negative=True +`hub.dataset.SQUAD(version_2_with_negative=False)` 会自动从网络下载数据集SQuAD v1.1并解压到用户目录下`$HOME/.paddlehub/dataset`目录;如果想选择数据集SQuAD v2.0,则只需version_2_with_negative=True; -`module.get_vocab_path()` 会返回预训练模型对应的词表 +`module.get_vocab_path()` 会返回预训练模型对应的词表; -`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致 +`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致; -ReadingComprehensionReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`. +ReadingComprehensionReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`; **NOTE**: Reader返回tensor的顺序是固定的,默认按照input_ids, position_ids, segment_id, input_mask这一顺序返回。 @@ -92,11 +92,11 @@ SQuAD v2.0 | hub.dataset.SQUAD(version_2_with_negative=True) DRCD | hub.dataset.DRCD() |roberta_wwm_ext_chinese_L-24_H-1024_A-16| CMRC 2018 | hub.dataset.CMRC2018() |roberta_wwm_ext_chinese_L-24_H-1024_A-16| -更多数据集信息参考[Dataset](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Dataset) +更多数据集信息参考[Dataset](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Dataset)。 #### 自定义数据集 -如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) +如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune)。 ### Step3:选择优化策略和运行配置 @@ -111,30 +111,30 @@ config = hub.RunConfig(use_cuda=True, num_epoch=2, batch_size=12, strategy=strat ``` #### 优化策略 -针对ERNIE/BERT类Transformer模型,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy` +针对ERNIE/BERT类Transformer模型,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy`: -`learning_rate`: Fine-tune过程中的最大学习率; +`learning_rate`: Fine-tune过程中的最大学习率; -`weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; +`weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; -`warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; +`warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; -`lr_scheduler`: 有两种策略可选(1)`linear_decay`策略学习率会在最高点后以线性方式衰减; (2)`noam_decay`策略学习率会在最高点以多项式形式衰减; +`lr_scheduler`: 有两种策略可选(1)`linear_decay`策略学习率会在最高点后以线性方式衰减; (2)`noam_decay`策略学习率会在最高点以多项式形式衰减; -PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy) +PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy)。 #### 运行配置 `RunConfig` 主要控制Fine-tune的训练,包含以下可控制的参数: -* `log_interval`: 进度日志打印间隔,默认每10个step打印一次 -* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集 -* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型 -* `use_cuda`: 是否使用GPU训练,默认为False -* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成 -* `num_epoch`: Fine-tune的轮数 -* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size -* `enable_memory_optim`: 是否使用内存优化, 默认为True -* `strategy`: Fine-tune优化策略 +* `log_interval`: 进度日志打印间隔,默认每10个step打印一次; +* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集; +* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型; +* `use_cuda`: 是否使用GPU训练,默认为False; +* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成; +* `num_epoch`: Fine-tune的轮数; +* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size; +* `enable_memory_optim`: 是否使用内存优化, 默认为True; +* `strategy`: Fine-tune优化策略; ### Step4: 构建网络并创建阅读理解迁移任务进行Fine-tune ```python @@ -160,13 +160,13 @@ reading_comprehension_task.finetune_and_eval() **NOTE:** 1. `outputs["sequence_output"]`返回了ERNIE/BERT模型输入单词的对应输出,可以用于单词的特征表达。 2. `feed_list`中的inputs参数指名了BERT中的输入tensor的顺序,与ReadingComprehensionReader返回的结果一致。 -3. `sub_task`指明阅读理解数据集名称,可选{squad, squad2.0, cmrc2018, drcd}, 用于适配各个数据集的模型训练过程中的评估方法 -4. `hub.ReadingComprehensionTask`通过输入特征、段落背景、问题和答案,可以生成适用于阅读理解迁移任务ReadingComprehensionTask +3. `sub_task`指明阅读理解数据集名称,可选{squad, squad2.0, cmrc2018, drcd}, 用于适配各个数据集的模型训练过程中的评估方法。 +4. `hub.ReadingComprehensionTask`通过输入特征、段落背景、问题和答案,可以生成适用于阅读理解迁移任务ReadingComprehensionTask。 #### 自定义迁移任务 -如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task) +如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task)。 ## 可视化 @@ -174,10 +174,13 @@ Fine-tune API训练过程中会自动对关键训练指标进行打点,启动 ```bash $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_NUM} ``` -其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况 +其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况。 ## 模型预测 +**NOTE:** +运行预测脚本时,建议用单卡预测。 + 通过Fine-tune完成模型训练后,在对应的ckpt目录下,会自动保存验证集上效果最好的模型。 配置脚本参数 @@ -185,29 +188,27 @@ $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_N CKPT_DIR=".ckpt_rc/" python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 384 --batch_size=1 ``` -其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE/BERT模型的最大序列长度,*请与训练时配置的参数保持一致* +其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE/BERT模型的最大序列长度,*请与训练时配置的参数保持一致*。 参数配置正确后,请执行脚本`sh run_predict.sh`,预测时程序会自动调用官方评价脚本即可看到SQuAD数据集的最终效果。 -如需了解更多预测步骤,请参考`predict.py` - -**NOTE:** -运行预测脚本时,建议用单卡预测。 +如需了解更多预测步骤,请参考`predict.py`。 我们在AI Studio上提供了IPython NoteBook形式的demo,您可以直接在平台上在线体验,链接如下: |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| + ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md) 和[使用样例](../autofinetune) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md)。 diff --git a/demo/reading_comprehension/predict.py b/demo/reading_comprehension/predict.py index 6438992d3dfa0a5dbfd8ebf8efe128a729518d72..b92471527bd703567ddee9ae1eb0f0af3c37946f 100644 --- a/demo/reading_comprehension/predict.py +++ b/demo/reading_comprehension/predict.py @@ -20,7 +20,21 @@ from __future__ import print_function import argparse import ast +import collections +import json +import io +import math +import numpy as np +import os +import six +import sys +import time + +import paddle +import paddle.fluid as fluid import paddlehub as hub +from paddlehub.finetune.task.reading_comprehension_task import write_predictions + hub.common.logger.logger.setLevel("INFO") # yapf: disable @@ -79,4 +93,4 @@ if __name__ == '__main__': # Data to be predicted data = dataset.dev_examples[:10] - print(reading_comprehension_task.predict(data=data, return_result=True)) + reading_comprehension_task.predict(data=data) diff --git a/demo/regression/README.md b/demo/regression/README.md index 37b9da1f17b51df5c5c0b571e9a2de5baf5a1196..9c5cffbea3df0c3b4592d109c1c37e886aa3215c 100644 --- a/demo/regression/README.md +++ b/demo/regression/README.md @@ -11,21 +11,21 @@ ```bash # 模型相关 ---batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数 ---learning_rate: Fine-tune的最大学习率 ---weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01 ---warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0 ---num_epoch: Fine-tune迭代的轮数 ---max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数 ---use_data_parallel: 是否使用并行计算,默认True。打开该功能依赖nccl库。 +--batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数; +--learning_rate: Fine-tune的最大学习率; +--weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01; +--warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0; +--num_epoch: Fine-tune迭代的轮数; +--max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数; +--use_data_parallel: 是否使用并行计算,默认True。打开该功能依赖nccl库; # 任务相关 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型 +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型; ``` ## 代码步骤 -使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤 +使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤: ### Step1: 加载预训练模型 @@ -56,7 +56,7 @@ RoBERTa-wwm-ext-large, Chinese | `hub.Module(name='roberta_wwm_ext_chinese_L 更多模型请参考[PaddleHub官网](https://www.paddlepaddle.org.cn/hub?filter=hot&value=1)。 -如果想尝试BERT模型,只需要更换Module中的`name`参数即可. +如果想尝试BERT模型,只需要更换Module中的`name`参数即可。 ```python # 更换name参数即可无缝切换BERT模型, 代码示例如下 module = hub.Module(name="bert_cased_L-12_H-768_A-12") @@ -71,21 +71,21 @@ reader = hub.reader.RegressionReader( max_seq_len=args.max_seq_len) ``` -其中数据集的准备代码可以参考 [glue.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/glue.py) +其中数据集的准备代码可以参考[glue.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/glue.py)。 -`hub.dataset.GLUE("STS-B")` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录 +`hub.dataset.GLUE("STS-B")` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录; -`module.get_vocab_path()` 会返回预训练模型对应的词表 +`module.get_vocab_path()` 会返回预训练模型对应的词表; -`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致 +`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致; -RegressionReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回ERNIE/BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`. +RegressionReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回ERNIE/BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`; **NOTE**: Reader返回tensor的顺序是固定的,默认按照input_ids, position_ids, segment_id, input_mask这一顺序返回。 #### 自定义数据集 -如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) +如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune)。 ### Step3:选择优化策略和运行配置 @@ -102,27 +102,27 @@ config = hub.RunConfig(use_cuda=True, num_epoch=3, batch_size=32, strategy=strat #### 优化策略 -PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy) +PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy)。 -针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy` +针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy`: -`learning_rate`: Fine-tune过程中的最大学习率; -`weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; -`warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; +`learning_rate`: Fine-tune过程中的最大学习率; +`weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; +`warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; `lr_scheduler`: 有两种策略可选(1) `linear_decay`策略学习率会在最高点后以线性方式衰减; `noam_decay`策略学习率会在最高点以多项式形式衰减; #### 运行配置 `RunConfig` 主要控制Fine-tune的训练,包含以下可控制的参数: -* `log_interval`: 进度日志打印间隔,默认每10个step打印一次 -* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集 -* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型 -* `use_cuda`: 是否使用GPU训练,默认为False -* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成 -* `num_epoch`: Fine-tune的轮数 -* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size -* `enable_memory_optim`: 是否使用内存优化, 默认为True -* `strategy`: Fine-tune优化策略 +* `log_interval`: 进度日志打印间隔,默认每10个step打印一次; +* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集; +* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型; +* `use_cuda`: 是否使用GPU训练,默认为False; +* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成; +* `num_epoch`: Fine-tune的轮数; +* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size; +* `enable_memory_optim`: 是否使用内存优化, 默认为True; +* `strategy`: Fine-tune优化策略; ### Step4: 构建网络并创建回归迁移任务进行Fine-tune ```python @@ -150,15 +150,15 @@ reg_task.finetune_and_eval() #### 自定义迁移任务 -如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task) +如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task)。 ## 可视化 -Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令 +Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令: ```bash $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_NUM} ``` -其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况 +其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况。 ## 模型预测 @@ -168,7 +168,7 @@ $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_N CKPT_DIR="ckpt_stsb/" python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 ``` -其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE/BERT模型的最大序列长度,*请与训练时配置的参数保持一致* +其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE/BERT模型的最大序列长度,*请与训练时配置的参数保持一致*。 参数配置正确后,请执行脚本`sh run_predict.sh`,即可看到以下回归任务预测结果。 如需了解更多预测步骤,请参考`predict.py` @@ -177,18 +177,19 @@ python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| + ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md) 和[使用样例](../autofinetune) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md)。 diff --git a/demo/senta/README.md b/demo/senta/README.md index aff04981aec4eb8e80e877e6709036e5848c3ee5..e21be801c6b882db77f5749a32ca47ed796f1b0c 100644 --- a/demo/senta/README.md +++ b/demo/senta/README.md @@ -20,8 +20,8 @@ test.txt 存放待预测文本, 如: ## 通过python API预测 -`senta_demo.py`给出了使用python API调用Module预测的示例代码 -通过以下命令试验下效果 +`senta_demo.py`给出了使用python API调用Module预测的示例代码, +通过以下命令试验下效果。 ```shell python senta_demo.py @@ -38,13 +38,13 @@ $ sh run_finetune.sh 其中脚本参数说明如下: ```bash ---batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型 ---num_epoch: Fine-tune迭代的轮数 ---use_gpu: 是否使用GPU进行训练,如果机器支持GPU且安装了GPU版本的PaddlePaddle,我们建议您打开这个开关 +--batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数; +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型; +--num_epoch: Fine-tune迭代的轮数; +--use_gpu: 是否使用GPU进行训练,如果机器支持GPU且安装了GPU版本的PaddlePaddle,我们建议您打开这个开关; ``` -使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤 +使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤: ### Step1: 加载预训练模型 @@ -65,7 +65,7 @@ senta_cnn | `hub.Module(name='senta_cnn')` 更多模型请参考[PaddleHub官网](https://www.paddlepaddle.org.cn/hub?filter=hot&value=1)。 -如果想尝GRU模型,只需要更换Module中的`name`参数即可. +如果想尝GRU模型,只需要更换Module中的`name`参数即可。 ```python # 更换name参数即可无缝切换GRU模型, 代码示例如下 module = hub.Module(name="senta_gru") @@ -79,17 +79,17 @@ reader = hub.reader.LACClassifyReader( vocab_path=module.get_vocab_path()) ``` -`hub.dataset.ChnSentiCorp()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录 +`hub.dataset.ChnSentiCorp()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录; -`module.get_vocab_path()` 会返回预训练模型对应的词表 +`module.get_vocab_path()` 会返回预训练模型对应的词表; -LACClassifyReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回Senta所需要的word id。 +LACClassifyReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回Senta所需要的word id; -更多数据集信息参考[Dataset](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Dataset) +更多数据集信息参考[Dataset](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Dataset); #### 自定义数据集 -如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) +如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune)。 ### Step3:选择优化策略和运行配置 @@ -106,23 +106,23 @@ config = hub.RunConfig(use_cuda=True, num_epoch=3, batch_size=32, strategy=strat #### 优化策略 -PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy) +PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy)。 其中`AdamWeightDecayStrategy`: -* `learning_rate`: Fine-tune过程中的最大学习率; -* `weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; -* `warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; +* `learning_rate`: Fine-tune过程中的最大学习率; +* `weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; +* `warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; * `lr_scheduler`: 有两种策略可选(1) `linear_decay`策略学习率会在最高点后以线性方式衰减; `noam_decay`策略学习率会在最高点以多项式形式衰减; #### 运行配置 `RunConfig` 主要控制Fine-tune的训练,包含以下可控制的参数: -* `use_cuda`: 是否使用GPU训练,默认为False -* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成 -* `num_epoch`: Fine-tune的轮数 -* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size -* `strategy`: Fine-tune优化策略 +* `use_cuda`: 是否使用GPU训练,默认为False; +* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成; +* `num_epoch`: Fine-tune的轮数; +* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size; +* `strategy`: Fine-tune优化策略; ### Step4: 构建网络并创建分类迁移任务进行Fine-tune ```python @@ -140,9 +140,9 @@ cls_task = hub.TextClassifierTask( cls_task.finetune_and_eval() ``` **NOTE:** -1. `outputs["sentence_feature"]`返回了senta模型对应的句子特征,可以用于句子的特征表达。 -2. `feed_list`中的inputs参数指名了senta中的输入tensor的顺序,与LACClassifyReader返回的结果一致。 -3. `hub.TextClassifierTask`通过输入特征,label与迁移的类别数,可以生成适用于文本分类的迁移任务`TextClassifierTask` +1. `outputs["sentence_feature"]`返回了senta模型对应的句子特征,可以用于句子的特征表达; +2. `feed_list`中的inputs参数指名了senta中的输入tensor的顺序,与LACClassifyReader返回的结果一致; +3. `hub.TextClassifierTask`通过输入特征,label与迁移的类别数,可以生成适用于文本分类的迁移任务`TextClassifierTask`; ## 可视化 @@ -150,7 +150,7 @@ Fine-tune API训练过程中会自动对关键训练指标进行打点,启动 ```bash $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_NUM} ``` -其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况 +其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况。 ## 模型预测 @@ -163,26 +163,27 @@ python predict.py --checkpoint_dir $CKPT_DIR 其中CKPT_DIR为Fine-tune API保存最佳模型的路径 参数配置正确后,请执行脚本`sh run_predict.sh`,即可看到以下文本分类预测结果, 以及最终准确率。 -如需了解更多预测步骤,请参考`predict.py` +如需了解更多预测步骤,请参考`predict.py`。 我们在AI Studio上提供了IPython NoteBook形式的demo,您可以直接在平台上在线体验,链接如下: |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221971)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| + ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md) 和[使用样例](../autofinetune) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md)。 diff --git a/demo/sentence_similarity/README.md b/demo/sentence_similarity/README.md index 97f3b92449e8ed93d45f52f9d2e43ac543568720..88233792c5fdd9896a30c832c108fde1cf0fd1dc 100644 --- a/demo/sentence_similarity/README.md +++ b/demo/sentence_similarity/README.md @@ -10,7 +10,7 @@ python sensim.py ``` -程序运行结束后, 可以看待预测的两个文本的余弦相似度 +程序运行结束后, 可以看待预测的两个文本的余弦相似度。 ``` text_a: 驾驶 违章 一次 扣 12分 用 两个 驾驶证 处理 可以 吗; text_b: 一次性 扣 12分 的 违章 , 能用 不满 十二分 的 驾驶证 扣分 吗; cosine_similarity: 0.39889 diff --git a/demo/sequence_labeling/README.md b/demo/sequence_labeling/README.md index a834d90892e88e02d79ccd00c3a8d1468e053c23..06787afbcef15f25a4916199a9212215117dad7a 100644 --- a/demo/sequence_labeling/README.md +++ b/demo/sequence_labeling/README.md @@ -8,22 +8,22 @@ ```bash # 模型相关 ---use_gpu: 是否使用GPU,默认为False ---batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数 ---learning_rate: Fine-tune的最大学习率 ---weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01 ---warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0 ---num_epoch: Fine-tune迭代的轮数 ---max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数。 ---use_data_parallel: 是否使用并行计算,默认True。打开该功能依赖nccl库。 +--use_gpu: 是否使用GPU,默认为False; +--batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数; +--learning_rate: Fine-tune的最大学习率; +--weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01; +--warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0; +--num_epoch: Fine-tune迭代的轮数; +--max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数; +--use_data_parallel: 是否使用并行计算,默认True。打开该功能依赖nccl库; # 任务相关 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型 +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型。 ``` ## 代码步骤 -使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤 +使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤: ### Step1: 加载预训练模型 @@ -54,7 +54,7 @@ RoBERTa-wwm-ext-large, Chinese | `hub.Module(name='roberta_wwm_ext_chinese_L 更多模型请参考[PaddleHub官网](https://www.paddlepaddle.org.cn/hub?filter=hot&value=1)。 -如果想尝试BERT模型,只需要更换Module中的`name`参数即可. +如果想尝试BERT模型,只需要更换Module中的`name`参数即可。 ```python # 更换name参数即可无缝切换BERT中文模型, 代码示例如下 module = hub.Module(name="bert_chinese_L-12_H-768_A-12") @@ -71,25 +71,25 @@ reader = hub.reader.SequenceLabelReader( word_dict_path=module.get_word_dict_path()) ``` -其中数据集的准备代码可以参考 [msra_ner.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/msra_ner.py) +其中数据集的准备代码可以参考[msra_ner.py](https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.2/paddlehub/dataset/msra_ner.py)。 -`hub.dataset.MSRA_NER()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录 +`hub.dataset.MSRA_NER()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录; -`module.get_vaocab_path()` 会返回预训练模型对应的词表 +`module.get_vaocab_path()` 会返回预训练模型对应的词表; -`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致 +`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致; -`module.sp_model_path` 和 `module.word_dict_path` 用于 ERNIE Tiny 中文sub-word中文切词技术 +`module.sp_model_path` 和 `module.word_dict_path` 用于 ERNIE Tiny 中文sub-word中文切词技术; -SequenceLabelReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回ERNIE/BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`. +SequenceLabelReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回ERNIE/BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`; **NOTE**: * Reader返回tensor的顺序是固定的,默认按照input_ids, position_ids, segment_id, input_mask这一顺序返回。 -* 如果选择的预训练模型不是ERNIE Tiny,则无需设定sp_model_path和word_dict_path参数 +* 如果选择的预训练模型不是ERNIE Tiny,则无需设定sp_model_path和word_dict_path参数。 #### 自定义数据集 -如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) +如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune)。 ### Step3:选择优化策略和运行配置 @@ -105,29 +105,29 @@ config = hub.RunConfig(use_cuda=True, num_epoch=3, batch_size=32, strategy=strat ``` #### 优化策略 -PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy) +PaddleHub提供了许多优化策略,如`AdamWeightDecayStrategy`、`ULMFiTStrategy`、`DefaultFinetuneStrategy`等,详细信息参见[策略](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Strategy); -针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy` +针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy`; -`learning_rate`: fine-tune过程中的最大学习率; -`weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; -`warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; -`lr_scheduler`: 有两种策略可选(1)`linear_decay`策略学习率会在最高点后以线性方式衰减;(2) `noam_decay`策略学习率会在最高点以多项式形式衰减; +`learning_rate`: fine-tune过程中的最大学习率; +`weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; +`warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; +`lr_scheduler`: 有两种策略可选(1)`linear_decay`策略学习率会在最高点后以线性方式衰减;(2) `noam_decay`策略学习率会在最高点以多项式形式衰减; #### 运行配置 `RunConfig` 主要控制fine-tune的训练,包含以下可控制的参数: -* `log_interval`: 进度日志打印间隔,默认每10个step打印一次 -* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集 -* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型 -* `use_cuda`: 是否使用GPU训练,默认为False -* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成 -* `num_epoch`: fine-tune的轮数 -* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size -* `enable_memory_optim`: 是否使用内存优化, 默认为True -* `strategy`: fine-tune优化策略 - -### Step4: 构建网络并创建序列标注迁移任务进行fine-tune +* `log_interval`: 进度日志打印间隔,默认每10个step打印一次; +* `eval_interval`: 模型评估的间隔,默认每100个step评估一次验证集; +* `save_ckpt_interval`: 模型保存间隔,请根据任务大小配置,默认只保存验证集效果最好的模型和训练结束的模型; +* `use_cuda`: 是否使用GPU训练,默认为False; +* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成; +* `num_epoch`: fine-tune的轮数; +* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size; +* `enable_memory_optim`: 是否使用内存优化, 默认为True; +* `strategy`: fine-tune优化策略; + +### Step4: 构建网络并创建序列标注迁移任务进行Fine-tune ```python sequence_output = outputs["sequence_output"] @@ -151,10 +151,14 @@ seq_label_task.finetune_and_eval() ``` **NOTE:** -1. `outputs["sequence_output"]`返回了ERNIE/BERT模型输入单词的对应输出,可以用于单词的特征表达。 -2. `feed_list`中的inputs参数指名了ERNIE/BERT中的输入tensor的顺序,与SequenceLabelReader返回的结果一致。 -3. `hub.SequenceLabelTask`通过输入特征,迁移的类别数,可以生成适用于序列标注的迁移任务`SequenceLabelTask` -4. `hub.SequenceLabelTask`通过add_crf, 选择是否加入crf作为decoder。如果add_crf=True, 则在预训练模型计算图加入fc+crf层,否则只在在预训练模型计算图加入fc层。 +1. `outputs["sequence_output"]`返回了ERNIE/BERT模型输入单词的对应输出,可以用于单词的特征表达; +2. `feed_list`中的inputs参数指名了ERNIE/BERT中的输入tensor的顺序,与SequenceLabelReader返回的结果一致; +3. `hub.SequenceLabelTask`通过输入特征,迁移的类别数,可以生成适用于序列标注的迁移任务`SequenceLabelTask`; +4. `hub.SequenceLabelTask`通过add_crf, 选择是否加入crf作为decoder。如果add_crf=True, 则在预训练模型计算图加入fc+crf层,否则只在在预训练模型计算图加入fc层; + +#### 自定义迁移任务 + +如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task)。 #### 自定义迁移任务 @@ -162,11 +166,12 @@ seq_label_task.finetune_and_eval() ## 可视化 -Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令 +Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令: + ```bash $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_NUM} ``` -其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况 +其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况。 ## 模型预测 @@ -176,7 +181,7 @@ $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_N CKPT_DIR="ckpt_sequence_label/" python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 ``` -其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE模型的最大序列长度,*请与训练时配置的参数保持一致* +其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE模型的最大序列长度,*请与训练时配置的参数保持一致*。 参数配置正确后,请执行脚本`sh run_predict.sh`,即可看到以下文本分类预测结果, 以及最终准确率。 如需了解更多预测步骤,请参考`predict.py` @@ -185,18 +190,18 @@ python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md) 和[使用样例](../autofinetune) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md)。 diff --git a/demo/ssd/README.md b/demo/ssd/README.md index 5ae9682801897df13f7cad68c9203f7c70f15480..b917ce9de67e77ea1da87738ff9f789456caec90 100644 --- a/demo/ssd/README.md +++ b/demo/ssd/README.md @@ -11,12 +11,12 @@ $ hub run ssd_mobilenet_v1_pascal --input_path "/PATH/TO/IMAGE" $ hub run ssd_mobilenet_v1_pascal --input_file test.txt ``` -test.txt 存放待检测图片的存放路径 +test.txt 存放待检测图片的存放路径。 ## 通过python API预测 -`ssd_demo.py`给出了使用python API调用SSD预测的示例代码 -通过以下命令试验下效果 +`ssd_demo.py`给出了使用python API调用SSD预测的示例代码。 +通过以下命令试验下效果: ```shell python ssd_demo.py diff --git a/demo/text_classification/README.md b/demo/text_classification/README.md index 9ff279c57758ae5d9291fdae2f8f14ec9b6ac6cd..4e75b13a8e7376d96f692125b2f22ee60ab713d3 100644 --- a/demo/text_classification/README.md +++ b/demo/text_classification/README.md @@ -9,19 +9,19 @@ 其中脚本参数说明如下: ```bash ---batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数 ---learning_rate: Fine-tune的最大学习率 ---weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01 ---warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0 ---num_epoch: Fine-tune迭代的轮数 ---max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数 ---use_data_parallel: 是否使用并行计算,默认True。打开该功能依赖nccl库。 ---checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型 +--batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数; +--learning_rate: Fine-tune的最大学习率; +--weight_decay: 控制正则项力度的参数,用于防止过拟合,默认为0.01; +--warmup_proportion: 学习率warmup策略的比例,如果0.1,则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减,默认为0; +--num_epoch: Fine-tune迭代的轮数; +--max_seq_len: ERNIE/BERT模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数; +--use_data_parallel: 是否使用并行计算,默认True。打开该功能依赖nccl库; +--checkpoint_dir: 模型保存路径,PaddleHub会自动保存验证集上表现最好的模型; ``` ## 代码步骤 -使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤 +使用PaddleHub Fine-tune API进行Fine-tune可以分为4个步骤; ### Step1: 加载预训练模型 @@ -49,6 +49,7 @@ BERT-wwm, Chinese | `hub.Module(name='bert_wwm_chinese_L-12_H-7 BERT-wwm-ext, Chinese | `hub.Module(name='bert_wwm_ext_chinese_L-12_H-768_A-12')` RoBERTa-wwm-ext, Chinese | `hub.Module(name='roberta_wwm_ext_chinese_L-12_H-768_A-12')` RoBERTa-wwm-ext-large, Chinese | `hub.Module(name='roberta_wwm_ext_chinese_L-24_H-1024_A-16')` + 更多模型请参考[PaddleHub官网](https://www.paddlepaddle.org.cn/hub?filter=hot&value=1)。 如果想尝试BERT模型,只需要更换Module中的`name`参数即可. @@ -69,17 +70,17 @@ reader = hub.reader.ClassifyReader( metrics_choices = ["acc"] ``` -`hub.dataset.ChnSentiCorp()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录 +`hub.dataset.ChnSentiCorp()` 会自动从网络下载数据集并解压到用户目录下`$HOME/.paddlehub/dataset`目录; -`module.get_vocab_path()` 会返回预训练模型对应的词表 +`module.get_vocab_path()` 会返回预训练模型对应的词表; -`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致 +`max_seq_len` 需要与Step1中context接口传入的序列长度保持一致; -`module.sp_model_path` 若module为ernie_tiny则返回对应的子词切分模型,否则返回None +`module.sp_model_path` 若module为ernie_tiny则返回对应的子词切分模型,否则返回None; -`module.word_dict_path` 若module为ernie_tiny则返回对应的词语切分模型,否则返回None +`module.word_dict_path` 若module为ernie_tiny则返回对应的词语切分模型,否则返回None; -ClassifyReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回ERNIE/BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`. +ClassifyReader中的`data_generator`会自动按照模型对应词表对数据进行切词,以迭代器的方式返回ERNIE/BERT所需要的Tensor格式,包括`input_ids`,`position_ids`,`segment_id`与序列对应的mask `input_mask`; **NOTE**: Reader返回tensor的顺序是固定的,默认按照input_ids, position_ids, segment_id, input_mask这一顺序返回。 @@ -92,11 +93,10 @@ LCQMC | hub.dataset.LCQMC() | 句对 | ernie_tiny NLPCC-QBDA | hub.dataset.NLPCC_DBQA() | 句对 | ernie_tiny | accuracy | GLUE-CoLA | hub.dataset.GLUE("CoLA") | 单句 | ernie_v2_eng_base | matthews | GLUE-SST2 | hub.dataset.GLUE("SST-2") | 单句 | ernie_v2_eng_base | accuracy | -GLUE-CoLA | hub.dataset.GLUE("CoLA") | 单句 | ernie_v2_eng_base | accuracy | GLUE-MNLI | hub.dataset.GLUE("MNLI_m") | 句对 | ernie_v2_eng_base | accuracy | GLUE-QQP | hub.dataset.GLUE("QQP") | 句对 | ernie_v2_eng_base | accuracy | GLUE-QNLI | hub.dataset.GLUE("QNLI") | 句对 | ernie_v2_eng_base | accuracy | -GLUE-STS-2 | hub.dataset.GLUE("SST-2"") | 句对 | ernie_v2_eng_base | accuracy | +GLUE-STS-B | hub.dataset.GLUE("STS-B") | 句对 | ernie_v2_eng_base | accuracy | GLUE-MRPC | hub.dataset.GLUE("MRPC") | 句对 | ernie_v2_eng_base | f1 | GLUE-RTE | hub.dataset.GLUE("RTE") | 单句 | ernie_v2_eng_base | accuracy | XNLI | hub.dataset.XNLI(language=zh)| 句对 | roberta_wwm_ext_chinese_L-24_H-1024_A-16 | accuracy | @@ -106,12 +106,11 @@ ChineseGLUE-INEWS | hub.dataset.INews() | 句对 | roberta_wwm_ext_ ChineseGLUE-TNEWS | hub.dataset.TNews() | 句对 | roberta_wwm_ext_chinese_L-24_H-1024_A-16 | accuracy | ChinesGLUE-BQ | hub.dataset.BQ() | 句对 | roberta_wwm_ext_chinese_L-24_H-1024_A-16 | accuracy | -更多数据集信息参考[Dataset](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Dataset) - +更多数据集信息参考[Dataset](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub-API:-Dataset)。 #### 自定义数据集 -如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune) +如果想加载自定义数据集完成迁移学习,详细参见[自定义数据集](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub%E9%80%82%E9%85%8D%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E5%AE%8C%E6%88%90FineTune)。 ### Step3:选择优化策略和运行配置 @@ -129,19 +128,19 @@ config = hub.RunConfig(use_cuda=True, num_epoch=3, batch_size=32, strategy=strat #### 优化策略 针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略`AdamWeightDecayStrategy` -* `learning_rate`: Fine-tune过程中的最大学习率; -* `weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; -* `warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; +* `learning_rate`: Fine-tune过程中的最大学习率; +* `weight_decay`: 模型的正则项参数,默认0.01,如果模型有过拟合倾向,可适当调高这一参数; +* `warmup_proportion`: 如果warmup_proportion>0, 例如0.1, 则学习率会在前10%的steps中线性增长至最高值learning_rate; * `lr_scheduler`: 有两种策略可选(1) `linear_decay`策略学习率会在最高点后以线性方式衰减; `noam_decay`策略学习率会在最高点以多项式形式衰减; #### 运行配置 `RunConfig` 主要控制Fine-tune的训练,包含以下可控制的参数: -* `use_cuda`: 是否使用GPU训练,默认为False -* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成 -* `num_epoch`: Fine-tune的轮数 -* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size -* `strategy`: Fine-tune优化策略 +* `use_cuda`: 是否使用GPU训练,默认为False; +* `checkpoint_dir`: 模型checkpoint保存路径, 若用户没有指定,程序会自动生成; +* `num_epoch`: Fine-tune的轮数; +* `batch_size`: 训练的批大小,如果使用GPU,请根据实际情况调整batch_size; +* `strategy`: Fine-tune优化策略; ### Step4: 构建网络并创建分类迁移任务进行Fine-tune ```python @@ -167,19 +166,19 @@ cls_task.finetune_and_eval() **NOTE:** 1. `outputs["pooled_output"]`返回了ERNIE/BERT模型对应的[CLS]向量,可以用于句子或句对的特征表达。 2. `feed_list`中的inputs参数指名了ERNIE/BERT中的输入tensor的顺序,与ClassifyReader返回的结果一致。 -3. `hub.TextClassifierTask`通过输入特征,label与迁移的类别数,可以生成适用于文本分类的迁移任务`TextClassifierTask` +3. `hub.TextClassifierTask`通过输入特征,label与迁移的类别数,可以生成适用于文本分类的迁移任务`TextClassifierTask`。 #### 自定义迁移任务 -如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task) +如果想改变迁移任务组网,详细参见[自定义迁移任务](https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub:-%E8%87%AA%E5%AE%9A%E4%B9%89Task)。 ## 可视化 -Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令 +Fine-tune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令: ```bash $ tensorboard --logdir $CKPT_DIR/visualization --host ${HOST_IP} --port ${PORT_NUM} ``` -其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况 +其中${HOST_IP}为本机IP地址,${PORT_NUM}为可用端口号,如本机IP地址为192.168.0.1,端口号8040,用浏览器打开192.168.0.1:8040,即可看到训练过程中指标的变化情况。 ## 模型预测 @@ -192,7 +191,7 @@ python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 其中CKPT_DIR为Fine-tune API保存最佳模型的路径, max_seq_len是ERNIE模型的最大序列长度,*请与训练时配置的参数保持一致* 参数配置正确后,请执行脚本`sh run_predict.sh`,即可看到以下文本分类预测结果, 以及最终准确率。 -如需了解更多预测步骤,请参考`predict.py` +如需了解更多预测步骤,请参考`predict.py`。 ``` 这个宾馆比较陈旧了,特价的房间也很一般。总体来说一般 predict=0 @@ -204,18 +203,18 @@ python predict.py --checkpoint_dir $CKPT_DIR --max_seq_len 128 |预训练模型|任务类型|数据集|AIStudio链接|备注| |-|-|-|-|-| -|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216772)|| -|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216764)|| -|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216649)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| -|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216787)|| -|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216683)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| -|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215599)|| -|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216851)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| -|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216735)|| -|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215641)|| -|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216749)|| +|ResNet|图像分类|猫狗数据集DogCat|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147010)|| +|ERNIE|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147006)|| +|ERNIE|文本分类|中文新闻分类数据集THUNEWS|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/221999)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成文本分类迁移学习。| +|ERNIE|序列标注|中文序列标注数据集MSRA_NER|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/147009)|| +|ERNIE|序列标注|中文快递单数据集Express|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/184200)|本教程讲述了如何将自定义数据集加载,并利用Fine-tune API完成序列标注迁移学习。| +|ERNIE Tiny|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/186443)|| +|Senta|文本分类|中文情感分类数据集ChnSentiCorp|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/216846)|本教程讲述了任何利用Senta和Fine-tune API完成情感分类迁移学习。| +|Senta|情感分析预测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215814)|| +|LAC|词法分析|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215711)|| +|Ultra-Light-Fast-Generic-Face-Detector-1MB|人脸检测|N/A|[点击体验](https://aistudio.baidu.com/aistudio/projectdetail/215962)|| ## 超参优化AutoDL Finetuner -PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md) 和[使用样例](../autofinetune) +PaddleHub还提供了超参优化(Hyperparameter Tuning)功能, 自动搜索最优模型超参得到更好的模型效果。详细信息参见[AutoDL Finetuner超参优化功能教程](../../tutorial/autofinetune.md)。 diff --git a/docs/imgs/paddlehub_figure.jpg b/docs/imgs/paddlehub_figure.jpg index cf61d665720939cdace43ea79dd8311dd5ab1d5f..b4a781b4195dcfd202829b1883be770df4d8e9d2 100644 Binary files a/docs/imgs/paddlehub_figure.jpg and b/docs/imgs/paddlehub_figure.jpg differ diff --git a/docs/imgs/paddlehub_finetune.gif b/docs/imgs/paddlehub_finetune.gif new file mode 100644 index 0000000000000000000000000000000000000000..23e6a774982f95f37bfad6fea466d98b5c74fc1c Binary files /dev/null and b/docs/imgs/paddlehub_finetune.gif differ diff --git a/docs/imgs/paddlehub_finetune.jpg b/docs/imgs/paddlehub_finetune.jpg index a95bec8d14cbca43377b928f0fb2967379967231..3b0910a9c85d59d0553d1c7dab27ab93a085d5a9 100644 Binary files a/docs/imgs/paddlehub_finetune.jpg and b/docs/imgs/paddlehub_finetune.jpg differ diff --git a/tutorial/autofinetune-cv.md b/tutorial/autofinetune-cv.md deleted file mode 100644 index 48c5107c6576134c61daa3645574157fcd633167..0000000000000000000000000000000000000000 --- a/tutorial/autofinetune-cv.md +++ /dev/null @@ -1,122 +0,0 @@ -# PaddleHub AutoDL Finetuner——图像分类任务 - - -使用PaddleHub AutoDL Finetuner需要准备两个指定格式的文件:待优化的超参数信息yaml文件hparam.yaml和需要Fine-tune的python脚本train.py - -以Fine-tune图像分类任务为例,展示如何利用PaddleHub AutoDL Finetuner进行超参优化。 - -以下是待优化超参数的yaml文件hparam.yaml,包含需要搜素的超参名字、类型、范围等信息。目前参数搜索类型只支持float和int类型 -``` -param_list: -- name : learning_rate - init_value : 0.001 - type : float - lower_than : 0.05 - greater_than : 0.00005 -- name : batch_size - init_value : 12 - type : int - lower_than : 20 - greater_than : 10 -``` - -以下是图像分类的`train.py` - -```python -# coding:utf-8 -import argparse -import os -import ast -import shutil - -import paddle.fluid as fluid -import paddlehub as hub -from paddlehub.common.logger import logger - -parser = argparse.ArgumentParser(__doc__) -parser.add_argument("--epochs", type=int, default=1, help="Number of epoches for fine-tuning.") -parser.add_argument("--use_gpu", type=ast.literal_eval, default=True, help="Whether use GPU for fine-tuning.") -parser.add_argument("--checkpoint_dir", type=str, default=None, help="Path to save log data.") - -# the name of hyperparameters to be searched should keep with hparam.py -parser.add_argument("--batch_size", type=int, default=16, help="Total examples' number in batch for training.") -parser.add_argument("--learning_rate", type=float, default=1e-4, help="learning_rate.") - -# saved_params_dir and model_path are needed by auto finetune -parser.add_argument("--saved_params_dir", type=str, default="", help="Directory for saving model") -parser.add_argument("--model_path", type=str, default="", help="load model path") - - -def is_path_valid(path): - if path == "": - return False - path = os.path.abspath(path) - dirname = os.path.dirname(path) - if not os.path.exists(dirname): - os.mkdir(dirname) - return True - -def finetune(args): - # Load Paddlehub resnet50 pretrained model - module = hub.Module(name="resnet_v2_50_imagenet") - input_dict, output_dict, program = module.context(trainable=True) - - # Download dataset and use ImageClassificationReader to read dataset - dataset = hub.dataset.Flowers() - data_reader = hub.reader.ImageClassificationReader( - image_width=module.get_expected_image_width(), - image_height=module.get_expected_image_height(), - images_mean=module.get_pretrained_images_mean(), - images_std=module.get_pretrained_images_std(), - dataset=dataset) - - feature_map = output_dict["feature_map"] - - img = input_dict["image"] - feed_list = [img.name] - - # Select finetune strategy, setup config and finetune - strategy = hub.DefaultFinetuneStrategy( - learning_rate=args.learning_rate) - - config = hub.RunConfig( - use_cuda=True, - num_epoch=args.epochs, - batch_size=args.batch_size, - checkpoint_dir=args.checkpoint_dir, - strategy=strategy) - - # Construct transfer learning network - task = hub.ImageClassifierTask( - data_reader=data_reader, - feed_list=feed_list, - feature=feature_map, - num_classes=dataset.num_labels, - config=config) - - # Load model from the defined model path or not - if args.model_path != "": - with task.phase_guard(phase="train"): - task.init_if_necessary() - task.load_parameters(args.model_path) - logger.info("PaddleHub has loaded model from %s" % args.model_path) - - - task.finetune() - run_states = task.eval() - eval_avg_score, eval_avg_loss, eval_run_speed = task._calculate_metrics(run_states) - - # Move ckpt/best_model to the defined saved parameters directory - best_model_dir = os.path.join(config.checkpoint_dir, "best_model") - if is_path_valid(args.saved_params_dir) and os.path.exists(best_model_dir): - shutil.copytree(best_model_dir, args.saved_params_dir) - shutil.rmtree(config.checkpoint_dir) - - # acc on dev will be used by auto finetune - hub.report_final_result(eval_avg_score["acc"]) - - -if __name__ == "__main__": - args = parser.parse_args() - finetune(args) -``` diff --git a/tutorial/autofinetune.md b/tutorial/autofinetune.md index b2039aaf929481aa253bfc97e72647d3a1b74797..d90d030c2e0d07b93d2761e0ea224bf747a14eee 100644 --- a/tutorial/autofinetune.md +++ b/tutorial/autofinetune.md @@ -7,11 +7,14 @@ PaddleHub AutoDL Finetuner提供两种超参优化算法: * **HAZero**: 核心思想是通过对正态分布中协方差矩阵的调整来处理变量之间的依赖关系和scaling。算法基本可以分成以下三步: -1. 采样产生新解 -2. 计算目标函数值 -3. 更新正态分布参数。 -调整参数的基本思路为,调整参数使得产生更优解的概率逐渐增大。优化过程如下图: + 1. 采样产生新解; + + 2. 计算目标函数值; + + 3. 更新正态分布参数; + + 调整参数的基本思路为,调整参数使得产生更优解的概率逐渐增大。优化过程如下图:


@@ -26,21 +29,21 @@ PaddleHub AutoDL Finetuner提供两种超参优化算法: PaddleHub AutoDL Finetuner为了评估搜索的超参对于任务的效果,提供两种超参评估策略: -* **Full-Trail**: 给定一组超参,利用这组超参从头开始Fine-tune一个新模型,之后在验证集评估这个模型 +* **Full-Trail**: 给定一组超参,利用这组超参从头开始Fine-tune一个新模型,之后在验证集评估这个模型; -* **Population-Based**: 给定一组超参,若这组超参是第一轮尝试的超参组合,则从头开始Fine-tune一个新模型;否则基于前几轮已保存的较好模型,在当前的超参数组合下继续Fine-tune并评估。 +* **Population-Based**: 给定一组超参,若这组超参是第一轮尝试的超参组合,则从头开始Fine-tune一个新模型;否则基于前几轮已保存的较好模型,在当前的超参数组合下继续Fine-tune并评估; ## 二、准备工作 -使用PaddleHub AutoDL Finetuner需要准备两个指定格式的文件:待优化的超参数信息yaml文件hparam.yaml和需要Fine-tune的python脚本train.py +使用PaddleHub AutoDL Finetuner需要准备两个指定格式的文件:待优化的超参数信息yaml文件hparam.yaml和需要Fine-tune的python脚本train.py。 ### 1. hparam.yaml hparam给出待搜索的超参名字、类型(int或者float)、搜索范围等信息,通过这些信息构建了一个超参空间,PaddleHub将在这个空间内进行超参数的搜索,将搜索到的超参传入train.py获得评估效果,根据评估效果自动调整超参搜索方向,直到满足搜索次数。 -**Note**: -* yaml文件的最外层级的key必须是param_list +**NOTE:** +* yaml文件的最外层级的key必须是param_list; ``` param_list: - name : hparam1 @@ -50,13 +53,13 @@ hparam给出待搜索的超参名字、类型(int或者float)、搜索范围 greater_than : 0.00005 ... ``` -* 超参名字可以任意指定,PaddleHub会将搜索到的值以指定名称传递给train.py使用 +* 超参名字可以任意指定,PaddleHub会将搜索到的值以指定名称传递给train.py使用; -* 优化超参策略选择HAZero时,需要提供两个以上的待优化超参。 +* 优化超参策略选择HAZero时,需要提供两个以上的待优化超参; ### 2. train.py -train.py用于接受PaddleHub搜索到的超参进行一次优化过程,将优化后的效果返回 +train.py用于接受PaddleHub搜索到的超参进行一次优化过程,将优化后的效果返回。


@@ -71,17 +74,17 @@ train.py用于接受PaddleHub搜索到的超参进行一次优化过程,将优 * 超参评估策略选择PopulationBased时,train.py须包含选项参数model_path,自动从model_path指定的路径恢复模型 * train.py须反馈模型的评价效果(建议使用验证集或者测试集上的评价效果),通过调用`report_final_result`接口反馈,如 - ```python - hub.report_final_result(eval_avg_score["acc"]) - ``` + ```python + hub.report_final_result(eval_avg_score["acc"]) + ``` * 输出的评价效果取值范围应为`(-∞, 1]`,取值越高,表示效果越好。 ### 示例 -[PaddleHub AutoDL Finetuner超参优化--NLP情感分类任务](./autofinetune-nlp.md) +[PaddleHub AutoDL Finetuner超参优化--NLP情感分类任务](../demo/autofinetune_text_classification)。 -[PaddleHub AutoDL Finetuner超参优化--CV图像分类任务](./autofinetune-cv.md) +[PaddleHub AutoDL Finetuner超参优化--CV图像分类任务](../demo/autofinetune_image_classification)。 ## 三、启动方式 @@ -96,25 +99,25 @@ $ hub autofinetune train.py --param_file=hparam.yaml --gpu=0,1 --popsize=5 --rou 其中,选项 -> `--param_file`: 必填,待优化的超参数信息yaml文件,即上述[hparam.yaml](#hparam.yaml)。 +* `--param_file`: 必填,待优化的超参数信息yaml文件,即上述[hparam.yaml](#1-hparamyaml); -> `--gpu`: 必填,设置运行程序的可用GPU卡号,中间以逗号隔开,不能有空格 +* `--gpu`: 必填,设置运行程序的可用GPU卡号,中间以逗号隔开,不能有空格; -> `--popsize`: 可选,设置程序运行每轮产生的超参组合数,默认为5 +* `--popsize`: 可选,设置程序运行每轮产生的超参组合数,默认为5; -> `--round`: 可选,设置程序运行的轮数,默认为10 +* `--round`: 可选,设置程序运行的轮数,默认为10; -> `--output_dir`: 可选,设置程序运行输出结果存放目录,不指定该选项参数时,在当前运行路径下生成存放程序运行输出信息的文件夹 +* `--output_dir`: 可选,设置程序运行输出结果存放目录,不指定该选项参数时,在当前运行路径下生成存放程序运行输出信息的文件夹; -> `--evaluator`: 可选,设置自动优化超参的评价效果方式,可选fulltrail和populationbased, 默认为populationbased +* `--evaluator`: 可选,设置自动优化超参的评价效果方式,可选fulltrail和populationbased, 默认为populationbased; -> `--tuning_strategy`: 可选,设置自动优化超参算法,可选hazero和pshe2,默认为pshe2 +* `--tuning_strategy`: 可选,设置自动优化超参算法,可选hazero和pshe2,默认为pshe2; -**NOTE**: +**NOTE:** -* 进行超参搜索时,一共会进行n轮(--round指定),每轮产生m组超参(--popsize指定)进行搜索。上一轮的优化结果决定下一轮超参数调整方向 +* 进行超参搜索时,一共会进行n轮(--round指定),每轮产生m组超参(--popsize指定)进行搜索。上一轮的优化结果决定下一轮超参数调整方向; -* 当指定GPU数量不足以同时跑一轮时,AutoDL Finetuner功能自动实现排队为了提高GPU利用率,建议卡数为刚好可以被popsize整除。如popsize=6,gpu=0,1,2,3,则每搜索一轮,AutoDL Finetuner自动起四个进程训练,所以第5/6组超参组合需要排队一次,在搜索第5/6两组超参时,会存在两张卡出现空闲等待的情况,如果设置为3张可用的卡,则可以避免这种情况的出现。 +* 当指定GPU数量不足以同时跑一轮时,AutoDL Finetuner功能自动实现排队为了提高GPU利用率,建议卡数为刚好可以被popsize整除。如popsize=6,gpu=0,1,2,3,则每搜索一轮,AutoDL Finetuner自动起四个进程训练,所以第5/6组超参组合需要排队一次,在搜索第5/6两组超参时,会存在两张卡出现空闲等待的情况,如果设置为3张可用的卡,则可以避免这种情况的出现; ## 四、目录结构 @@ -139,21 +142,21 @@ $ hub autofinetune train.py --param_file=hparam.yaml --gpu=0,1 --popsize=5 --rou ``` 其中output_dir为启动autofinetune命令时指定的根目录,目录下: -* log_file.txt记录每一轮搜索所有的超参以及整个过程中所搜索到的最优超参 +* log_file.txt记录每一轮搜索所有的超参以及整个过程中所搜索到的最优超参; -* best_model保存整个搜索训练过程中得到的最优的模型参数 +* best_model保存整个搜索训练过程中得到的最优的模型参数; -* visualization记录可视化过程的日志文件 +* visualization记录可视化过程的日志文件; -* round0 ~ roundn记录每一轮的数据,在每个round目录下,还存在以下文件: +* round0 ~ roundn记录每一轮的数据,在每个round目录下,还存在以下文件; - * log-0.info ~ log-m.info记录每个搜索方向的日志 + * log-0.info ~ log-m.info记录每个搜索方向的日志; - * model-0 ~ model-m记录对应搜索的参数 + * model-0 ~ model-m记录对应搜索的参数; ## 五、可视化 -AutoDL Finetuner API在优化超参过程中会自动对关键训练指标进行打点,启动程序后执行下面命令 +AutoDL Finetuner API在优化超参过程中会自动对关键训练指标进行打点,启动程序后执行下面命令。 ```shell $ tensorboard --logdir ${OUTPUT}/visualization --host ${HOST_IP} --port ${PORT_NUM} @@ -164,7 +167,7 @@ $ tensorboard --logdir ${OUTPUT}/visualization --host ${HOST_IP} --port ${PORT_N ## 六、args参数传递 -PaddleHub AutoDL Finetuner 支持将train.py中的args其余不需要搜索的参数通过autofinetune remainder方式传入。这个不需要搜索的选项参数名称应该和通过hub autofinetune的传入选项参数名称保持一致。如[PaddleHub AutoDL Finetuner超参优化--NLP情感分类任务](./autofinetune-nlp.md)示例中的max_seq_len选项,可以参照以下方式传入。 +PaddleHub AutoDL Finetuner 支持将train.py中的args其余不需要搜索的参数通过autofinetune remainder方式传入。这个不需要搜索的选项参数名称应该和通过hub autofinetune的传入选项参数名称保持一致。如[PaddleHub AutoDL Finetuner超参优化--NLP情感分类任务](../demo/autofinetune_text_classification)示例中的max_seq_len选项,可以参照以下方式传入。 ```shell $ OUTPUT=result/ diff --git a/tutorial/sentence_sim.md b/tutorial/sentence_sim.md index bfc5d7dbd96311777b5e5eb2ac6cf43e580503ea..7b5fda2b2304a08b7e579f7271e76261cb027855 100644 --- a/tutorial/sentence_sim.md +++ b/tutorial/sentence_sim.md @@ -1,6 +1,6 @@ # 使用Word2Vec进行文本语义相似度计算 -本示例展示利用PaddleHub“端到端地”完成文本相似度计算 +本示例展示利用PaddleHub“端到端地”完成文本相似度计算。 ## 一、准备文本数据 @@ -12,7 +12,7 @@ ``` ## 二、分词 -利用PaddleHub Module LAC对文本数据进行分词 +利用PaddleHub Module LAC对文本数据进行分词。 ```python # coding:utf-8 @@ -59,7 +59,7 @@ for text_pair in raw_data: ## 三、计算文本语义相似度 -将分词文本中的单词相应替换为wordid,之后输入wor2vec module中计算两个文本语义相似度 +将分词文本中的单词相应替换为wordid,之后输入wor2vec module中计算两个文本语义相似度。 ```python def convert_tokens_to_ids(vocab, text):