diff --git a/modules/text/language_model/bert-base-cased/README.md b/modules/text/language_model/bert-base-cased/README.md index fe7010a3002b40d7c432c27ebc527fdfc76c8023..de01d9689393528bf9a21015a7f8a22933de098a 100644 --- a/modules/text/language_model/bert-base-cased/README.md +++ b/modules/text/language_model/bert-base-cased/README.md @@ -55,7 +55,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -65,7 +64,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-base-chinese/README.md b/modules/text/language_model/bert-base-chinese/README.md index 4150d3511f80c1265db6b751d57da9035bd879bd..41a8e0c125993ca53e49bd063bdfaebf314b15ca 100644 --- a/modules/text/language_model/bert-base-chinese/README.md +++ b/modules/text/language_model/bert-base-chinese/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-base-multilingual-cased/README.md b/modules/text/language_model/bert-base-multilingual-cased/README.md index da82d1c7076fddc70e6d705bf00ac86f18335982..14a2def03909a4c12bb190cb7ae4a438e6f0eb51 100644 --- a/modules/text/language_model/bert-base-multilingual-cased/README.md +++ b/modules/text/language_model/bert-base-multilingual-cased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-base-multilingual-uncased/README.md b/modules/text/language_model/bert-base-multilingual-uncased/README.md index ede4b2711228bdf64a234e6afee4c0d025f22e77..3d07c2130a7f3381c63f8f40edadd62e8f0d661d 100644 --- a/modules/text/language_model/bert-base-multilingual-uncased/README.md +++ b/modules/text/language_model/bert-base-multilingual-uncased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-base-uncased/README.md b/modules/text/language_model/bert-base-uncased/README.md index ecc63df031968ff4a32db4bd92740ac38b65a4ed..84867e57c002527ee33a8d821489faa445499244 100644 --- a/modules/text/language_model/bert-base-uncased/README.md +++ b/modules/text/language_model/bert-base-uncased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-large-cased/README.md b/modules/text/language_model/bert-large-cased/README.md index 89006ec1b5f78bf46550936c3968675a3d5e1818..1cd6285fca959172b524336ab2adbf9715982c83 100644 --- a/modules/text/language_model/bert-large-cased/README.md +++ b/modules/text/language_model/bert-large-cased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/bert-large-uncased/README.md b/modules/text/language_model/bert-large-uncased/README.md index 482314ddc9c8ffeddc5bb49aa7592bd4ba932375..1a40ce6a99c668e8531cc6f73c830bd3bfbdd29a 100644 --- a/modules/text/language_model/bert-large-uncased/README.md +++ b/modules/text/language_model/bert-large-uncased/README.md @@ -54,7 +54,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -64,7 +63,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/chinese_bert_wwm/README.md b/modules/text/language_model/chinese_bert_wwm/README.md index a51f325ee41dfafeadf2fb7448ec182d325a6394..ca1e3aaee1c53bc798e7ef6f511c73e6f67eece4 100644 --- a/modules/text/language_model/chinese_bert_wwm/README.md +++ b/modules/text/language_model/chinese_bert_wwm/README.md @@ -52,7 +52,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -62,7 +61,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/chinese_bert_wwm_ext/README.md b/modules/text/language_model/chinese_bert_wwm_ext/README.md index 5e058538977af7cd297805790cd8d8a4130abd7d..45709dbe03e8ea4f07c89b897485a10514e571ab 100644 --- a/modules/text/language_model/chinese_bert_wwm_ext/README.md +++ b/modules/text/language_model/chinese_bert_wwm_ext/README.md @@ -52,7 +52,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -62,7 +61,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/ernie/README.md b/modules/text/language_model/ernie/README.md index 90fc231ec7b3439ec5a7fb6b9dbf6a37e3fea256..1a42cc99e0f0b07f449105f98a5b5ce41c3a4596 100644 --- a/modules/text/language_model/ernie/README.md +++ b/modules/text/language_model/ernie/README.md @@ -64,7 +64,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -74,7 +73,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/ernie_tiny/README.md b/modules/text/language_model/ernie_tiny/README.md index 3d940bb0e874213f492b8853120a7dafa52acc20..04ace50ced480b26039fd7df1a39cff1e69452f5 100644 --- a/modules/text/language_model/ernie_tiny/README.md +++ b/modules/text/language_model/ernie_tiny/README.md @@ -64,7 +64,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -74,7 +73,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/ernie_v2_eng_base/README.md b/modules/text/language_model/ernie_v2_eng_base/README.md index 2427c1c3a713e2c43ca34240adcd9d07f4e59fd8..3f747302915c7565d2578e8a591967d891361e9d 100644 --- a/modules/text/language_model/ernie_v2_eng_base/README.md +++ b/modules/text/language_model/ernie_v2_eng_base/README.md @@ -60,7 +60,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -70,7 +69,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/ernie_v2_eng_large/README.md b/modules/text/language_model/ernie_v2_eng_large/README.md index 46c46cd1ceeae147613610742eb1e1fa64b7b905..08c100f15244c743f4bb5dd0caf883512a548b20 100644 --- a/modules/text/language_model/ernie_v2_eng_large/README.md +++ b/modules/text/language_model/ernie_v2_eng_large/README.md @@ -59,7 +59,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -69,7 +68,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/rbt3/README.md b/modules/text/language_model/rbt3/README.md index 705270d0815a957671b5abf01cb46c53cca1da43..0a41ed6d942f999127e9d66c411e9bc9f91314e1 100644 --- a/modules/text/language_model/rbt3/README.md +++ b/modules/text/language_model/rbt3/README.md @@ -52,7 +52,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -62,7 +61,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/rbtl3/README.md b/modules/text/language_model/rbtl3/README.md index b24f20fc27725abb32259fdf9d75b526754d1c11..5cdcdefee7406ca38a07f1fd479db56817b8e060 100644 --- a/modules/text/language_model/rbtl3/README.md +++ b/modules/text/language_model/rbtl3/README.md @@ -52,7 +52,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -62,7 +61,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/roberta-wwm-ext-large/README.md b/modules/text/language_model/roberta-wwm-ext-large/README.md index ecdeb781cf2406d78f880d9acbd501a6550ff256..0b5f46cafb5e8c7f670fd236bad15d5b5d797141 100644 --- a/modules/text/language_model/roberta-wwm-ext-large/README.md +++ b/modules/text/language_model/roberta-wwm-ext-large/README.md @@ -53,7 +53,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -63,7 +62,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/modules/text/language_model/roberta-wwm-ext/README.md b/modules/text/language_model/roberta-wwm-ext/README.md index 1899057dea0fd3bd9cebed25dd507eb03beace1d..2eedd7d3e5deffdf5a9d2eacf7c6919136269c84 100644 --- a/modules/text/language_model/roberta-wwm-ext/README.md +++ b/modules/text/language_model/roberta-wwm-ext/README.md @@ -53,7 +53,6 @@ def predict( ```python def get_embedding( data, - max_seq_len=128, use_gpu=False ) ``` @@ -63,7 +62,6 @@ def get_embedding( **参数** * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 -* `max_seq_len`:模型处理文本的最大长度。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 **返回** diff --git a/paddlehub/module/nlp_module.py b/paddlehub/module/nlp_module.py index bacc9eb8fc53bffadf0fb6e376372ffb1c15230f..ebebed704c5d6139e626314ac006c26cb5525d19 100644 --- a/paddlehub/module/nlp_module.py +++ b/paddlehub/module/nlp_module.py @@ -390,7 +390,7 @@ class TextServing(object): ] return results elif self.task is None: # embedding service - results = self.get_embedding(data, max_seq_len, use_gpu) + results = self.get_embedding(data, use_gpu) return results else: # unknown service logger.error( @@ -477,14 +477,11 @@ class TransformerModule(RunModule, TextServing): predictions, avg_loss, metric = self(input_ids=batch[0], token_type_ids=batch[1], seq_lengths=batch[2], labels=batch[3]) return {'metrics': metric} - def get_embedding(self, data: List[List[str]], max_seq_len=128, use_gpu=False): + def get_embedding(self, data: List[List[str]], use_gpu=False): """ Get token level embeddings and sentence level embeddings from model. Args: data (obj:`List(List(str))`): The processed data whose each element is the list of a single text or a pair of texts. - max_seq_len (:obj:`int`, `optional`, defaults to :int:`None`): - If set to a number, will limit the total sequence returned so that it has a maximum length. - batch_size(obj:`int`, defaults to 1): The number of batch. use_gpu(obj:`bool`, defaults to `False`): Whether to use gpu to run or not. Returns: @@ -495,8 +492,6 @@ class TransformerModule(RunModule, TextServing): return self.predict( data=data, - max_seq_len=max_seq_len, - batch_size=1, use_gpu=use_gpu )