From ba49d78688dcb50f61b045d0f1f8ef9f417cce35 Mon Sep 17 00:00:00 2001 From: KP <109694228@qq.com> Date: Tue, 5 Jan 2021 21:04:08 +0800 Subject: [PATCH] Remove arg "max_seq_len" in get_embedding method (#1168) * update get_embedding --- modules/text/language_model/bert-base-cased/README.md | 2 -- modules/text/language_model/bert-base-chinese/README.md | 2 -- .../bert-base-multilingual-cased/README.md | 2 -- .../bert-base-multilingual-uncased/README.md | 2 -- modules/text/language_model/bert-base-uncased/README.md | 2 -- modules/text/language_model/bert-large-cased/README.md | 2 -- modules/text/language_model/bert-large-uncased/README.md | 2 -- modules/text/language_model/chinese_bert_wwm/README.md | 2 -- .../text/language_model/chinese_bert_wwm_ext/README.md | 2 -- modules/text/language_model/ernie/README.md | 2 -- modules/text/language_model/ernie_tiny/README.md | 2 -- modules/text/language_model/ernie_v2_eng_base/README.md | 2 -- modules/text/language_model/ernie_v2_eng_large/README.md | 2 -- modules/text/language_model/rbt3/README.md | 2 -- modules/text/language_model/rbtl3/README.md | 2 -- .../text/language_model/roberta-wwm-ext-large/README.md | 2 -- modules/text/language_model/roberta-wwm-ext/README.md | 2 -- paddlehub/module/nlp_module.py | 9 ++------- 18 files changed, 2 insertions(+), 41 deletions(-) diff --git a/modules/text/language_model/bert-base-cased/README.md b/modules/text/language_model/bert-base-cased/README.md index fe7010a3..de01d968 100644 --- a/modules/text/language_model/bert-base-cased/README.md +++ b/modules/text/language_model/bert-base-cased/README.md @@ -55,7 +55,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -65,7 +64,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-base-chinese/README.md b/modules/text/language_model/bert-base-chinese/README.md index 4150d351..41a8e0c1 100644 --- a/modules/text/language_model/bert-base-chinese/README.md +++ b/modules/text/language_model/bert-base-chinese/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-base-multilingual-cased/README.md b/modules/text/language_model/bert-base-multilingual-cased/README.md index da82d1c7..14a2def0 100644 --- a/modules/text/language_model/bert-base-multilingual-cased/README.md +++ b/modules/text/language_model/bert-base-multilingual-cased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-base-multilingual-uncased/README.md b/modules/text/language_model/bert-base-multilingual-uncased/README.md index ede4b271..3d07c213 100644 --- a/modules/text/language_model/bert-base-multilingual-uncased/README.md +++ b/modules/text/language_model/bert-base-multilingual-uncased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-base-uncased/README.md b/modules/text/language_model/bert-base-uncased/README.md index ecc63df0..84867e57 100644 --- a/modules/text/language_model/bert-base-uncased/README.md +++ b/modules/text/language_model/bert-base-uncased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-large-cased/README.md b/modules/text/language_model/bert-large-cased/README.md index 89006ec1..1cd6285f 100644 --- a/modules/text/language_model/bert-large-cased/README.md +++ b/modules/text/language_model/bert-large-cased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-large-uncased/README.md b/modules/text/language_model/bert-large-uncased/README.md index 482314dd..1a40ce6a 100644 --- a/modules/text/language_model/bert-large-uncased/README.md +++ b/modules/text/language_model/bert-large-uncased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/chinese_bert_wwm/README.md b/modules/text/language_model/chinese_bert_wwm/README.md index a51f325e..ca1e3aae 100644 --- a/modules/text/language_model/chinese_bert_wwm/README.md +++ b/modules/text/language_model/chinese_bert_wwm/README.md @@ -52,7 +52,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -62,7 +61,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/chinese_bert_wwm_ext/README.md b/modules/text/language_model/chinese_bert_wwm_ext/README.md index 5e058538..45709dbe 100644 --- a/modules/text/language_model/chinese_bert_wwm_ext/README.md +++ b/modules/text/language_model/chinese_bert_wwm_ext/README.md @@ -52,7 +52,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -62,7 +61,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/ernie/README.md b/modules/text/language_model/ernie/README.md index 90fc231e..1a42cc99 100644 --- a/modules/text/language_model/ernie/README.md +++ b/modules/text/language_model/ernie/README.md @@ -64,7 +64,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -74,7 +73,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/ernie_tiny/README.md b/modules/text/language_model/ernie_tiny/README.md index 3d940bb0..04ace50c 100644 --- a/modules/text/language_model/ernie_tiny/README.md +++ b/modules/text/language_model/ernie_tiny/README.md @@ -64,7 +64,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -74,7 +73,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/ernie_v2_eng_base/README.md b/modules/text/language_model/ernie_v2_eng_base/README.md index 2427c1c3..3f747302 100644 --- a/modules/text/language_model/ernie_v2_eng_base/README.md +++ b/modules/text/language_model/ernie_v2_eng_base/README.md @@ -60,7 +60,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -70,7 +69,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/ernie_v2_eng_large/README.md b/modules/text/language_model/ernie_v2_eng_large/README.md index 46c46cd1..08c100f1 100644 --- a/modules/text/language_model/ernie_v2_eng_large/README.md +++ b/modules/text/language_model/ernie_v2_eng_large/README.md @@ -59,7 +59,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -69,7 +68,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/rbt3/README.md b/modules/text/language_model/rbt3/README.md index 705270d0..0a41ed6d 100644 --- a/modules/text/language_model/rbt3/README.md +++ b/modules/text/language_model/rbt3/README.md @@ -52,7 +52,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -62,7 +61,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/rbtl3/README.md b/modules/text/language_model/rbtl3/README.md index b24f20fc..5cdcdefe 100644 --- a/modules/text/language_model/rbtl3/README.md +++ b/modules/text/language_model/rbtl3/README.md @@ -52,7 +52,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -62,7 +61,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/roberta-wwm-ext-large/README.md b/modules/text/language_model/roberta-wwm-ext-large/README.md index ecdeb781..0b5f46ca 100644 --- a/modules/text/language_model/roberta-wwm-ext-large/README.md +++ b/modules/text/language_model/roberta-wwm-ext-large/README.md @@ -53,7 +53,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -63,7 +62,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/roberta-wwm-ext/README.md b/modules/text/language_model/roberta-wwm-ext/README.md index 1899057d..2eedd7d3 100644 --- a/modules/text/language_model/roberta-wwm-ext/README.md +++ b/modules/text/language_model/roberta-wwm-ext/README.md @@ -53,7 +53,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -63,7 +62,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/paddlehub/module/nlp_module.py b/paddlehub/module/nlp_module.py index bacc9eb8..ebebed70 100644 --- a/paddlehub/module/nlp_module.py +++ b/paddlehub/module/nlp_module.py @@ -390,7 +390,7 @@ class TextServing(object): ] return results elif self.task is None: # embedding service - results = self.get_embedding(data, max_seq_len, use_gpu) + results = self.get_embedding(data, use_gpu) return results else: # unknown service logger.error( @@ -477,14 +477,11 @@ class TransformerModule(RunModule, TextServing): predictions, avg_loss, metric = self(input_ids=batch[0], token_type_ids=batch[1], seq_lengths=batch[2], labels=batch[3]) return {'metrics': metric} - def get_embedding(self, data: List[List[str]], max_seq_len=128, use_gpu=False): + def get_embedding(self, data: List[List[str]], use_gpu=False): """ Get token level embeddings and sentence level embeddings from model. Args: data (obj:`List(List(str))`): The processed data whose each element is the list of a single text or a pair of texts. - max_seq_len (:obj:`int`, `optional`, defaults to :int:`None`): - If set to a number, will limit the total sequence returned so that it has a maximum length. - batch_size(obj:`int`, defaults to 1): The number of batch. use_gpu(obj:`bool`, defaults to `False`): Whether to use gpu to run or not. Returns: @@ -495,8 +492,6 @@ class TransformerModule(RunModule, TextServing): return self.predict( data=data, - max_seq_len=max_seq_len, - batch_size=1, use_gpu=use_gpu ) -- GitLab